Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 197
Идея первого подхода заключается в обучении на неразмеченных данных некоторой модели-кодировщика, выход которой мог бы затем использоваться при обучении на размеченных данных модели распознавания. Такое комбинирование обучения без учителя и с учителем позволяет эффективно использовать потенциал как неразмеченных, так и размеченных данных, имеющихся у исследователей, что, учитывая сравнительную дороговизну разметки, является важным преимуществом подобных моделей. Наиболее популярными кодировщиками, применяемыми в составе подобных решений, являются wav2vec[1934], vq-wav2vec[1935] и wav2vec 2.0[1936]. По состоянию на сентябрь 2023 года наибольшая точность при распознавании речи из датасета LibriSpeech была достигнута в июле 2021 г. исследователями из компании Google за счёт сочетания wav2vec 2.0, комбинации трансформерной и свёрточной архитектуры под названием Conformer[1937], а также усовершенствованной версии SpecAugment для аугментации обучающей выборки. В итоге для «грязной» части LibriSpeech удалось снизить WER до 2,6%, а для «чистой» и вовсе до 1,4%[1938]. Впрочем, несмотря на выдающиеся результаты, использование этого метода требует тщательного подбора параметров и размеров выборок.
Поэтому в качестве альтернативы команда исследователей из Facebook предложила иной подход, получивший название «псевдоразметка». Его суть заключается в том, что модель сначала обучается на размеченных данных, а затем используется для разметки неразмеченной части данных, которые после этого пополняют обучающую выборку.
Стоп-стоп-стоп, а почему это вообще работает?.. Ведь, казалось бы, модель ориентируется на свои собственные результаты? Как это может улучшить точность распознавания? В глубоком обучении нередко прибегают к использованию пар моделей «учитель» — «ученик», в которых более простая и быстрая модель-ученик может использовать разметку, выполненную более большой и медленной, но точной моделью-учителем. Но разве может модель выступать в роли учителя для самой себя?
На самом деле этот трюк работает благодаря двум вещам. Во-первых, ввиду аугментации — при псевдоразметке модель выполняется на неискажённых аугментацией данных. После завершения псевдоразметки эти данные попадают на этап обучения модели уже в аугментированном виде, то есть с некоторыми искажениями спектрограммы, при этом они снабжены транскрипцией, выполненной по неискажённым данным. Во-вторых, при псевдоразметке используется языковая модель, которая позволяет исправить неверно распознанные фонетической моделью фонемы благодаря привлечению языкового контекста. Также процесс псевдоразметки можно сделать итеративным — доученная модель используется для псевдоразметки очередной порции неразмеченных данных и так далее несколько раз, пока ошибка распознавания продолжает падать. Благодаря этому методу третье место на сентябрь 2023 г. в рейтинге точности распознавания речи для массива LibriSpeech занимает связка свёрточно-трансформерной архитектуры — усовершенствованной версии SpecAugment и итеративной псевдоразметки, достигшая значений WER 3,1 и 1,5% на «грязной» и «чистой» частях датасета соответственно[1939].
В 2021 г. модель W2v-BERT, основанная, как можно догадаться из названия, на комбинации wav2vec и BERT, поставила новый рекорд в точности распознавания речи из набора LibriSpeech: 2,5% для «грязной» и 1,4% WER для «чистой» частей датасета. Скорее всего, этот результат будет ещё немного улучшен в ближайшие годы, хотя, по всей видимости, LibriSpeech ждёт судьба ImageNet — задача распознавания на его основе стала слишком простой для современных моделей, именно поэтому в сообществе специалистов по распознаванию речи активно обсуждается возможность использования альтернативных наборов тестовых данных[1940].
В 2022 г. исследователи из компании OpenAI представили на суд общественности модель для распознавания речи под названием Whisper. Для её обучения использовалось целых 680 000 часов аудиозаписей, снабжённых субтитрами, причём записи содержали речь сразу на 97 языках (впрочем, основная часть всё-таки пришлась на английский). При сборе записей исследователи постарались отсеять те из них, субтитры у которых были сгенерированы автоматически при помощи различных систем распознавания речи, чтобы избежать попадания в обучающую выборку ошибок, допущенных этими системами. Хотя Whisper и не демонстрирует «из коробки» рекордного значения WER для популярных публичных наборов данных, его результаты выглядят весьма достойно (например, на «чистой» части LibriSpeech WER составляет 2,7%). Одним из основных преимуществ Whisper является его устойчивость к смене домена (ведь на этапе обучения он видел очень разнообразные записи) и возможность недорогой адаптации к целевой задаче путём непродолжительного дообучения на соответствующих данных[1941].
В ноябре 2022 г. Google объявила об «Инициативе 1000 языков» — амбициозной программе, которая призвана помочь вовлечению в международное общение миллиардов людей, принадлежащих к множеству разобщённых языковых сообществ. В рамках этой инициативы Google обучила модель USM (Universal Speech Model, Универсальная языковая модель), способную распознавать речь более чем на 100 языках мира и осваивать новые языки, отталкиваясь от совсем небольшого количества примеров. Этот результат был получен за счёт предобучения кодировщика модели на большом неразмеченном многоязычном наборе аудиозаписей продолжительностью 12 млн часов, охватывающем более 300 языков, с последующим дообучением на меньшем наборе записей, снабжённых текстовой транскрипцией[1942], [1943].
В целом качество распознавания речи в наши дни позволяет системам ИИ распознавать речь со сверхчеловеческой точностью при условии, что в обучающей выборке присутствовали записи, близкие по параметрам к записям из сферы целевого применения. Таким образом, модель, обученная на записях из GSM-канала, будет испытывать проблемы при работе с обычными микрофонными записями. Другие параметры оборудования — сильное эхо или фоновые шумы, потери пакетов в сетях связи, сильно различающаяся тематика разговоров — могут мешать качественному распознаванию речи. Русский язык по сравнению с английским обладает большей флективностью (т. е. среднее число форм одного и того же слова в нём немного выше, чем в английском), что создаёт системам распознавания дополнительные трудности. И всё же сегодня при грамотном использовании технологий распознавания речи можно создавать удобные продукты и сервисы, пользующиеся большой популярностью: голосовые помощники, роботизированные системы обзвона, голосовые интерфейсы навигационных систем и медиаплееров, системы управления в умных домах, системы речевой аналитики в колл-центрах и так далее.
Помимо собственно распознавания речи, системы, основанные на технологиях машинного обучения, применяются сегодня для идентификации пользователей по голосу, выделения в аудиозаписях реплик различных людей (так называемая диаризация), активации устройств по ключевым словам, определения интонационной окраски речи, улучшения качества звука и многих других задач в области обработки голосовой информации. При этом прогресс во всех этих областях продолжается, а это означает, что все вышеперечисленные способности или уже стали обыденными для современных продуктов и сервисов, или станут таковыми в ближайшие годы.
- Предыдущая
- 197/368
- Следующая

