Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 195
В 1997 г. свет увидела база данных Switchboard, ставшая результатом одноимённого эксперимента, в ходе которого роботизированная система случайным образом соединяла двух добровольцев, предварительно сообщив им тему для последующего разговора. Всего корпус содержит 2430 записей разговоров средней продолжительностью около 6 минут, что в сумме даёт около 240 часов аудио. Запись осуществлялась с частотой дискретизации 8 кГц (каждый из участников разговора записывался в отдельный канал), в эксперименте участвовало чуть более 500 человек, а суммарная длина текстовых расшифровок превысила 3 млн слов.
В том же году Консорциум лингвистических данных (Linguistic Data Consortium, LDC) подготовил вторую базу под названием CALLHOME American English Speech[1913], содержащую 120 тридцатиминутных записей телефонных разговоров носителей английского языка, в которых они преимущественно общались с родственниками или близкими друзьями на произвольные темы.
В 2004–2005 гг. Консорциум опубликовал так называемый корпус Фишера (The Fisher corpus)[1914], [1915], [1916] — базу данных, созданную в рамках проекта DARPA EARS (Effective, Affordable, Reusable Speech-to-Text, Эффективный, доступный, пригодный для «переиспользования» перевод речи в текст) и содержащую ещё около 2000 часов записей телефонных переговоров с текстовой расшифровкой (всего 11 699 записей; запись, как и в CALLHOME и Switchboard, велась с частотой 8 кГц в раздельные каналы).
Для тестирования качества распознавания английской речи LDC на протяжении многих лет использовал стандартизированный датасет, получивший название «2000 HUB5 English Evaluation Transcripts»[1917] (коротко — Hub’2000 или даже Hub5’00), состоящий из 40 записей телефонных разговоров общей продолжительностью около четырёх часов. Этот датасет был впервые использован в 2000 г. на конкурсе Hub5, спонсировавшемся NIST. Половина разговоров Hub5’00 взята из неопубликованной части Switchboard, вторая — из неопубликованной части CALLHOME. Hub5’00 не был первым датасетом, использованным для оценки качества распознавания речи (на это как бы намекает цифра 5 в названии датасета), но именно Hub5’00 на долгие годы стал наиболее популярным массивом для оценки качества работы систем распознавания речи.
В 2015 г. появился корпус LibriSpeech[1918], содержащий 1000 часов записей аудиокниг, находящихся в публичном доступе. В отличие от предшественников LibriSpeech содержит записи, выполненные с частотой дискретизации 16 кГц. В наши дни он весьма популярен в качестве основы для сравнения различных систем распознавания речи. Этот датасет разделён на две части. Первую составляют «чистые» [clean] записи, а вторую — «прочие» [other]. Для того чтобы разделить датасет на две части, была использована система распознавания речи, обученная на другом, более старом датасете — WSJ (содержащем надиктованную на микрофон подборку новостей из The Wall Street Journal)[1919]. Далее записи 50% дикторов, чью речь модель распознала лучше всего, были отнесены к первой части датасета, а записи оставшихся дикторов — ко второй[1920].
LibriSpeech с его 1000 часов записей является на сегодняшний день самым большим открытым речевым датасетом. При этом объёмы проприетарных (несвободных) датасетов, находящихся в распоряжении крупных корпораций, составляют на сегодняшний день десятки тысяч часов[1921].
6.2.2.4 Метрики оценки
При оценке качества распознавания речи используются различные метрики, но наиболее популярной на протяжении многих лет остаётся метрика под названием WER (Word Error Rate, доля ошибок на уровне слов). Иногда WER называется также «дистанцией редактирования, нормализованной на длину» [length normalized edit distance], поскольку представляет собой дистанцию Левенштейна (редакционное расстояние, дистанцию редактирования) на уровне слов между правильным текстом и текстом на выходе системы распознавания, делённую на длину правильного текста (в словах).
Дистанция Левенштейна получила имя в честь советского и российского математика Владимира Левенштейна, который ввёл эту метрику в 1965 г. под названием «дистанция редактирования». Дистанцией редактирования между двумя последовательностями A и B называется минимальное количество вставок, удалений и замен элементов последовательности (например, символов или, как в нашем случае, слов), которые нужно произвести в A для того, чтобы получить B. Например, чтобы получить из предложения МАМА МЫЛА РАМУ предложение МАМА МЫЛА МАМУ, нужно заменить одно слово (РАМУ — МАМУ), следовательно, дистанция редактирования между этими двумя предложениями составляет 1. Чтобы сделать из фразы СЛОНЫ ИДУТ НА СЕВЕР фразу СЛОНЫ МАШУТ УШАМИ нужно произвести три правки (ИДУТ заменить на МАШУТ, НА заменить на УШАМИ, а СЕВЕР удалить), стало быть, дистанция Левенштейна (на уровне слов) между этими двумя фразами составит 3.
Для того чтобы вычислить WER, необходимо поделить дистанцию Левенштейна на количество слов в правильной версии распознаваемой фразы. Если система распознавания речи приняла фразу МАМА МЫЛА РАМУ за МАМА МЫЛА МАМУ, то WER = 1/3 ≈ 33%. Если при распознавании фразы СЛОНЫ ИДУТ НА СЕВЕР система распознавания расслышала в ней СЛОНЫ МАШУТ УШАМИ, то WER = 3/4 = 75%. Если дистанцию редактирования и длину оригинальной фразы считать на уровне букв, а не на уровне слов, то получившаяся в итоге метрика будет называться CER (Character Error Rate, доля ошибок на уровне символов). Если же расчёт выполнять на уровне целых предложений, то получится метрика SER (Sentence Error Rate, доля ошибок на уровне предложений).
Существует альтернативная методика расчёта WER, при которой вставки и удаления, в отличие от замены, засчитывают не за целую, а за половину ошибки. Эта версия была предложена[1922] в 1990 г. Мелвином Хантом, однако в наши дни под WER обычно понимают оригинальную метрику. Более тонкий подход к оценке качества распознавания может быть получен путём разделения замен на грубые и негрубые, такая перевзвешенная метрика называется IWER (Inflected WER, склоняемый WER), поскольку предназначена прежде всего для того, чтобы снизить штраф за некритичные ошибки в окончаниях слов.
6.2.2.5 Прогресс и проблемы
В 2000 г. лучшая система распознавания речи, существовавшая на тот момент, а именно CU-HTK[1923], продемонстрировала на Hub5’00 значение WER, равное 25,4%[1924], то есть примерно каждое четвёртое слово распознавалось неправильно. И всё это в условиях, когда тестовая выборка была составлена из разговоров, максимально приближённых по параметрам к обучающей выборке. При этом протокол тестирования, использованный NIST, был максимально «дружественным» для систем распознавания, например, ошибкой не считались несовпадения в написании слов, используемых для обозначения хезитации (uh, eh, mm, hm, huh и т. д.)[1925], то есть различных эканий и беканий, которыми люди склонны заполнять неловкие паузы в разговоре. В общем, ситуация была весьма плачевной.
- Предыдущая
- 195/368
- Следующая

