Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 243
6.4.4 Развитие конкатенативного синтеза речи
Параллельно с различными разновидностями параметрического синтеза речи исследователи активно изучали возможности конкатенативного подхода.
Конечно, можно попробовать собирать речь из отдельных фонем. Именно так поступили, например, авторы популярной системы синтеза речи «Говорун» для семейства советских ЭВМ серии БК. Авторам программы, Юрию Зальцману и Виктору Михайлову, удалось в 1989 г. по заданию Казахского общества слепых создать синтезатор речи размером всего около 8 килобайт[2367]. Однако качество такой речи, конечно, оставляло желать лучшего.
С лингвистической точки зрения привлекательной строительной единицей речи являются слоги, однако в английском языке их насчитывается более 10 000, и компьютеры 1950-х и даже 1960-х гг. не обладали достаточным объёмом оперативной памяти для хранения такого количества звуковых фрагментов и быстрой сборки из них речевых последовательностей. Прямолинейное использование в качестве строительных блоков отдельных фонем (в английском языке их около 40) потерпело неудачу из-за хорошо известных коартикуляционных эффектов, возникающих между соседними фонемами (мы уже обсуждали проблему коартикуляции в подглаве, посвящённой распознаванию речи).
Коартикуляционные воздействия ослабевают в акустическом центре фонемы, что побудило исследователя из Мичиганского университета (University of Michigan) (и выходца из Bell Laboratories) Гордона Петерсона и его коллег использовать так называемые дифоны, то есть строительным элементом речи становились акустические фрагменты, начинавшиеся с середины одной фонемы и заканчивающиеся в середине следующей. Попарные сочетания из 40 фонем порождали 40 × 40 = 1600 дифонов, при этом не все подобные сочетания встречаются в реальной речи. Однако поначалу Петерсон и его коллеги считали, что необходимо ещё учитывать разницу между ударными и безударными слогами, аллофоны (различные варианты фонем, обусловленные конкретным фонетическим контекстом) и необходимость отдельного хранения сочетаний «гласный — согласный — гласный». Ввиду этого мичиганские исследователи думали, что потребуется использование базы, состоящей из примерно 8000 элементов. К счастью, опыты показали, что число элементов можно уменьшить примерно в восемь раз без видимой потери качества звучания.
Потенциальный недостаток дифонного подхода заключается в том, что в середине гласных могут возникать разрывы, связанные с тем, что в двух примыкающих дифонах гласные могут быть слишком сильно видоизменены под воздействием коартикуляционных эффектов. Например, при произнесении первого согласного звука в слове wet, происходит округление губ (так называемая лабиализация), что приводит к изменению гласного звука, распространяющемуся куда дальше, чем середина фонемы.
Некоторое сглаживание на границах дифона минимизирует воспринимаемые на слух последствия фактических разрывов формант, но несовпадение половинок гласных не так уж просто компенсировать. Существуют и другие коартикуляционные проблемы, что придаёт синтезированной на основе дифонов речи некоторую неестественность, хотя она в целом вполне разборчива.
Первая дифонная система, разработанная Норманом Диксоном и Дэвидом Макси, была впервые продемонстрирована в 1967 г. на ICSCP. Авторы потратили много лет, чтобы методом проб и ошибок оптимизировать набор дифонов. Однако и этот проект не был доведён до конца — и, как у Мэттингли, не по техническим, а по деловым причинам.
В 1978 г. Осаму Фуджимура и Джули Лавинс предложили в качестве альтернативы дифонам использование полуслогов [demisyllables]. Правила разбиения слогов, предложенные авторами, позволили обойтись для английского языка примерно тысячей полуслогов. Преимущество полуслогов заключается в том, что кластеры согласных внутри слогов, в большой степени подверженные эффектам коартикуляции, становятся отдельными единицами при синтезе. Однако данный подход не позволяет эффективно решить проблему межслоговой коартикуляции. Первая программа, основанная на этом подходе, была продемонстрирована Кэтрин Браумен в 1980 г.[2368]
(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})Помимо дифонов и полуслогов, предлагались и другие схемы фонетической сегментации, что привело в итоге к появлению конкатенативных систем с динамическим выбором сегментов. Как правило, деление на сегменты выполняется с использованием специально модифицированных для этой цели систем распознавания речи, работающих в режиме «принудительного выравнивания» [forced alignment] (в котором для каждой фонемы определяется точное время её начала и окончания), с последующей ручной коррекцией полученных результатов. Полученные сегменты помещаются в базу данных вместе с их параметрами (величина F0, длительность) и данными о контексте (положение в слоге, соседние фонемы и т. п.). Во время синтеза система, основываясь на текущем контексте, выбирает из базы наиболее подходящие сегменты (для этого используется модель-классификатор) с тем, чтобы выстроить наилучшую их цепочку.
Именно этот метод, получивший название «метод выбора элементов» [unit selection], в середине 2010-х гг. был наиболее популярным для синтеза речи на европейских языках. Он обеспечивал наилучшее качество синтетической речи, хотя в массовых тестах заметно уступал предзаписанным образцам реальной человеческой речи. Поэтому довольно широкое распространение получили также специализированные системы синтеза, предназначенные для тех или иных узкоспецифических задач. Например, если вам нужно продиктовать человеку набор цифр, то можно просто использовать предзаписанные названия цифр, нормализованные по темпу, громкости и фундаментальной частоте (F0). Конечно, интонации такой системы будут не слишком естественными, однако результат будет разборчивым и в произношении не будет дефектов. Можно также использовать предзаписанные названия аэропортов и железнодорожных станций для систем синтеза речи, используемых на транспорте. Диалоговые системы, работающие по несложным сценариям, могут быть полностью выстроены на предзаписанных образцах реплик. В целом создатели прикладных голосовых систем хорошо выучили один из главных законов инженерного искусства: не следует забивать гвозди микроскопом, особенно если под руками есть молоток.
6.4.5 Развитие параметрического синтеза речи
Впрочем, системы параметрического синтеза также не стояли на месте. В середине 2010-х гг. их наиболее продвинутой версией стали системы статистического параметрического синтеза (Statistic Parametric Speech Synthesis, SPSS), основанные на скрытых марковских моделях (Hidden Markov Models, HMM).
Сам метод SPSS был предложен в работе[2369] Такаёси Ёсимуры, увидевшей свет в 1999 г., и впоследствии подвергнут ряду доработок и усовершенствований в работах других исследователей. Идея заключается в том, что речь может быть представлена в виде фрагментов, каждый из которых описывается следующим набором параметров: длительность, величина F0, а также набор мел-кепстральных коэффициентов, описывающих спектральные характеристики голоса (форманты, помимо F0). Используя эти параметры, можно сгенерировать последовательность амплитуд звукового сигнала. Собственно, алгоритм, преобразующий звуковой сигнал в подобный набор параметров, а затем способный восстановить из них сигнал, близкий по форме к исходному, называется, как вы уже, наверное, догадались, вокодером. Ёсимура и его коллеги использовали в качестве вокодера алгоритм под названием MLSA (Mel Log Spectrum Approximation, Мел-логспектральная аппроксимация)[2370]. Существенно сократив за счёт применения вокодера число параметров, необходимых для описания звукового сигнала, Ёсимура с коллегами использовали комбинацию деревьев решений и скрытой марковской модели для того, чтобы предсказывать изменение этих параметров во времени в зависимости от последовательности фонем, поступающих на вход модели.
- Предыдущая
- 243/368
- Следующая

