Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 246
В тесте приняли участие 15 оценщиков — носителей английского языка без диагностированных нарушений слуха. Каждому из них было предложено оценить 20 наборов, которые были случайно отобраны из 72 синтезированных фраз. Каждый набор включал десять образцов синтеза одного и того же предложения, девять из них были синтезированы одной из девяти оцениваемых систем, а одна была записью естественной речи, используемой в качестве скрытой точки отсчёта. Участников попросили оценить каждый образец по шкале от 0 (крайне плохо) до 100 (абсолютно естественно звучащая речь). Им также было дано указание дать ровно одному из десяти образцов в каждом наборе оценку 100. В результате теста исследователи получили 300 наборов оценок. В одном из них скрытая точка отсчёта не была оценена в 100 баллов, поэтому этот набор был исключён из дальнейшего анализа.
Авторы также пытались расширить выходной слой сети, чтобы поручить ей выполнение дополнительных вторичных задач (например, предсказание центральных частот формант F1—F4) в надежде, что это улучшит внутренние представления, выучиваемые сетью, что, в свою очередь, положительно повлияет на точность решения основной задачи. Однако здесь авторам не удалось добиться статистически значимых улучшений[2380]. Вообще, публикация исследователями из Эдинбурга отрицательных результатов наряду с положительными, на мой взгляд, свидетельствует об их исключительной добросовестности.
В том же 2015 г. в Японии на Первом международном симпозиуме по машинному обучению в области обработки устной речи (First International Workshop on Machine Learning in Spoken Language Processing, MLSLP) Хейга Дзэн представил обзор прогресса в области систем статистического параметрического синтеза (от скрытых марковских моделей до LSTM-сетей). Обзор завершался следующим выводом: «Одной из основных причин, по которой HMM стали доминирующей акустической моделью в SPSS, является наличие программного обеспечения с открытым исходным кодом для создания полностью функциональных, „сквозных“ систем. Поскольку существует ряд пакетов программного обеспечения с открытым исходным кодом для глубокого обучения, автор ожидает, что искусственные нейронные сети станут следующей доминирующей акустической моделью в ближайшем будущем»[2381] (сквозная, end-to-end система — система, которая реализует весь функционал от начала до конца; в данном случае система, которая преобразовывала бы текстовое представление в звуковой сигнал).
В 2016 г. совместная британо-японская группа исследователей из Эдинбургского университета и Национального института информатики Японии продемонстрировала превосходство глубоких моделей над скрытыми марковскими моделями как в традиционном статистическом параметрическом синтезе, так и в «гибридном синтезе» (этот термин авторы использовали для обозначения модели, в которой выбор элементов речевого сигнала производится при помощи модели статистического параметрического синтеза, но сами элементы могут не только извлекаться из базы данных, но и генерироваться при помощи вокодера)[2382].
Как видно, авторы всех данных работ постепенно улучшали глубокие модели, используя разнообразные подходы. Нейросети всё более успешно справлялись с задачей синтеза речи, постепенно обходя скрытые марковские модели, но результаты этих двух подходов были всё ещё близки друг к другу.
О том, что стало решающим шагом вперёд, мы поговорим в следующей подглаве.
6.4.7 Появление модели WaveNet и новые проблемы
Прорывом в области параметрического синтеза речи стало появление в 2016 г. получившей название WaveNet модели, созданной Хейгой Дзэном совместно с группой исследователей из DeepMind. WaveNet стал первым нейросетевым вокодером, способным преобразовывать последовательность лингвистических признаков (это могут быть фреймы (временные фрагменты), содержащие значения F0 и наборы мел-кепстральных коэффициентов, либо фреймы линейной или мел-спектрограммы) в последовательность амплитуд речевого сигнала.
(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})WaveNet — авторегрессионная модель, то есть модель, в которой каждый следующий элемент последовательности зависит от предыдущих. Она является наследницей модели под названием PixelCNN, предназначенной для генерации изображений (мы подробнее поговорим о ней в разделе, посвящённом генеративным моделям). Каждая следующая амплитуда речевого сигнала сильно зависит от предыдущих, и эти зависимости могут связывать амплитуды, находящиеся друг от друга на достаточно большом расстоянии. Обычно человеческое ухо способно различать частоты не ниже 20 Гц. При частоте дискретизации 48 кГц длина периода колебаний частотой 20 Гц составляет 48000 / 20 = 2400 шагов. Таким образом, качественной авторегрессионной модели для речевого сигнала нужно довольно большое рецептивное поле (часть входной последовательности, передаваемой на вход модели). Для рекуррентных сетей это слишком большие дистанции, а «наивные» нерекуррентные архитектуры, такие как полносвязные и даже свёрточные сети, содержат слишком большое количество параметров. Проблема такой сети заключается в том, что она должна выполняться каждый раз при вычислении очередной амплитуды. 48 000 выполнений сети на одну секунду аудиосигнала — весьма дорогое удовольствие. Если для вычисления каждой следующей амплитуды нужно знать значение предыдущей, сделать такие расчёты параллельными довольно затруднительно.
Трюк, использованный создателями WaveNet, называется расширенной или растянутой свёрткой [dilated convolution] или даже «свёрткой с дырками» [à trous]. Расширенная свёртка — это свёртка, в которой фильтр (ядро свёртки) применяется к области, превышающей его собственную длину, путём пропуска входных значений с определённым шагом. Математически это эквивалентно свёртке с более крупным фильтром, полученным из исходного путём разбавления его значений нулями, но с вычислительной точки зрения куда более эффективно. Расширенная свёртка позволяет сети эффективно обрабатывать данные, обладающие большей размерностью, чем в случае обычной свёртки. Расширенная свёртка с коэффициентом расширения [dilation], равным 1, является стандартной свёрткой.
Авторы WaveNet не были изобретателями расширенной свёртки, она применялась с конца 1980-х гг. в различных контекстах, например в обработке сигналов[2383], [2384] или для сегментации изображений[2385], [2386]. Однако создатели WaveNet подобрали оптимальное количество слоёв, их коэффициенты расширения, а также снабдили сеть перепрыгивающими соединениями. Каждый блок WaveNet включает девять последовательных слоёв расширенной свёртки с коэффициентами 1, 2, 4, 8, 16, 32, 64, 128, 256, 512. Несколько блоков WaveNet могут быть соединены друг с другом с целью расширения рецептивного поля сети.
Размер рецептивного поля WaveNet в экспериментах, упомянутых авторами модели, составлял 0,24–0,3 секунды. Если модель при генерации сигнала ориентируется лишь на предшествующие амплитуды, то начинает подражать особенностям корпуса, на котором производилось обучение модели. Если используется речевой корпус, то модель начинает генерировать последовательности, фонетически напоминающие речь на языке корпуса. Конечно, это не осмысленная речь, а глоссолалия, то есть речь, состоящая из бессмысленных слов, имеющая некоторые признаки настоящей речи. В одном из забавных экспериментов создатели WaveNet использовали корпус, состоящий из записей фортепианных концертов. Обученная на таком корпусе модель сочиняла своеобразные музыкальные импровизации.
- Предыдущая
- 246/368
- Следующая

