Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 259
Формально суммарная длительность аудиовизуальных фрагментов в базе SEMAINE более чем в два раза превосходит RAVDESS по аналогичному показателю, однако различные эмоции представлены в SEMAINE крайне неравномерно, также никак не был сбалансирован ни состав участников исследования, ни лексическая основа диалогов, что практически сводит на нет преимущество в объёме данных. Тем не менее нельзя не отметить удивительную детальность разметки, выполненной исследователями в рамках этого проекта.
Также разметка SEMAINE включает в себя информацию о смехе, кивках, покачиваниях головой и оценку степени вовлечённости пользователя в диалог.
4. TESS (Toronto emotional speech set, Набор эмоциональной речи [Университета] Торонто).
В 1966 г. исследователи из Северо-Западного университета разработали так называемый слуховой тест № 6, предназначенный для измерения чувствительности слуха пациентов. Набор фраз, используемых в тесте, состоит из фразы-носителя — Say the word… [Скажи слово…] и набора из 200 различных слов, которые добавляются к фразе-носителю. Исследователи из Университета Торонто использовали этот же набор текстов, при этом каждая из фраз произносилась двумя актрисами (26 и 64 лет; обе были из региона Торонто, являлись носительницами английского языка, имели высшее и высшее музыкальное образование) с семью различными типами эмоциональной окраски (использовались всё та же «большая шестёрка» эмоций и нейтральная окраска). Таким образом, в сумме было получено 200 × 7 × 2 = 2800 записей.
Этот весьма скромный по размерам датасет тем не менее нередко используется исследователями и в наши дни.
5. Berlin Database of Emotional Speech (EMO-DB) (Берлинская база данных эмоциональной речи)[2473].
Этот германоязычный массив данных, впервые представленный на конференции InterSpeech-2005, на протяжении многих лет пользовался большой популярностью у исследователей эмоциональной речи. Десять актёров (пять женщин и пять мужчин) имитировали эмоции, произнося по десять предложений (пять коротких и пять более длинных), относящихся к повседневному лексикону. Записи были сделаны в студии с шумопоглощающим покрытием при помощи высококачественного записывающего оборудования. Помимо звука, были записаны электроглоттограммы. Электроглоттография основана на измерении динамики электрического сопротивления гортани во время произнесения фраз, что достигается при помощи пары электродов, располагаемых на передней поверхности шеи по обе стороны щитовидного хряща (Cartilago thyroidea).
10 актёров × 10 предложений × 7 эмоций (включая нейтральную) дают нам 700 записей, однако часть записей была выполнена повторно, поэтому в базе содержится на 100 записей больше. Все записи были подвергнуты оценке с привлечением 20 оценщиков, которые прослушивали записи в случайном порядке (повторное прослушивание не допускалось) и должны были определить эмоциональную окраску фразы и то, насколько убедительно эта эмоция была выражена. После этого для записей со средним уровнем узнавания эмоции более 80% и средней оценкой убедительности более 60% (которых оказалось 300 штук) разметчики дополнительно оценили интенсивность проявления эмоции (при этом имея возможность многократного прослушивания записи).
По современным меркам этот датасет невелик и может быть использован разве что в учебных целях.
6. IEMOCAP (Interactive emotional dyadic motion capture database, Интерактивная эмоциональная база данных [на основе] диадического захвата движений)[2474].
Этот массив, созданный Лабораторией анализа и интерпретации речи (Speech Analysis and Interpretation Laboratory, SAIL) Университета Южной Калифорнии (University of Southern California), включает в себя записи диалогов (спонтанных и на основе заранее подготовленных сценариев) десяти участников. Данные включают в себя аудиозаписи с расшифровкой, видео, а также подробную информацию о выражении лица и движениях рук, эмоциональную разметку («большая шестёрка» + другая эмоция + нейтральная окраска, а также оценка эмоций по трём шкалам: валентность, активация и доминирование). Общий объём корпуса составляет около 12 часов.
(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})7. HEU Emotion — один из свежих мультимодальных и многоязычных эмоциональных датасетов, опубликованный[2475] китайскими исследователями в середине 2020 г.
Датасет включает в себя две части. Первая содержит 16 569 видеороликов (с 8984 действующими лицами), загруженных с Tumblr, Google и Giphy и представленных в двух модальностях (выражение лица и поза), вторая — 2435 фрагментов фильмов, сериалов и шоу (с 967 действующими лицами), представленных в трёх модальностях (выражение лица, поза и эмоционально окрашенная речь). Создатели датасета использовали эмоциональный алфавит из десяти эмоций, добавив к нейтральной эмоции и «большой шестёрке» разочарование, растерянность и скуку.
8. RUSLANA database (RUSsian LANguage Affective speech database, Русскоязычная база данных эмоциональной речи)[2476].
Первая открытая русскоязычная база данных эмоциональной речи была создана в 2002 г. Её создатели — Вероника Макарова и Валерий Петрушин, а заказчики — японский Университет Мейкай (明海大学, Meikai daigaku, Meikai University), Национальный институт передовой промышленной науки и технологии (産業技術総合研究所, Sangyō Gijutsu Sōgō Kenkyū-sho, National Institute of Advanced Industrial Science and Technology) и исследовательская лаборатория Accenture Technology Labs консалтинговой компании Accenture.
База данных содержит записи 61 человека (12 мужчин и 49 женщин), которые произносят десять предложений с выражением следующих эмоциональных состояний: удивление, счастье, гнев, грусть, страх и нейтрально (без эмоциональной окраски). Таким образом, база содержит в сумме 61 × 10 × 6 = 3660 записей.
С момента появления RUSLANA свет увидели ещё несколько открытых русскоязычных эмоциональных датасетов, например аудиовизуальный RAMAS (впрочем, сейчас получить доступ к этому датасету вряд ли получится, поскольку компания, занимавшаяся его сбором, прекратила существование) и весьма внушительный по объёму (более 20 000 записей) набор эмоциональной детской речи EmoChildRu[2477], но долгое время не существовало открытых датасетов взрослой эмоциональной русской речи, превосходящих RUSLANA по объёму.
9. Ситуация изменилась лишь в феврале 2022 г., когда команда SberDevices опубликовала датасет под названием Dusha, содержащий около 320 тысяч аудиозаписей общей продолжительностью примерно 350 часов.
Датасет разделён на две большие части. Первая (Podcast) состоит из фрагментов русскоязычных подкастов, вторая (Crowd) — из различных разговорных реплик, озвученных с помощью краудсорсинга. Пользователей краудсорсинговой платформы просили озвучивать реплики с заданной эмоциональной окраской (использовался эмоциональный алфавит, включающий следующие эмоции: 1) позитив, 2) нейтральная окраска, 3) грусть, 4) злость/раздражение). Далее все реплики были пропущены через независимых оценщиков (каждую реплику оценивало несколько человек), каждый из которых указывал распознанную им эмоциональную окраску прослушанного фрагмента, используя вышеуказанный алфавит. После этого те записи из части Crowd, в которых распознанная на слух эмоциональная окраска отличалась от той, которую стремились придать участники озвучки, не были включены в итоговый датасет[2478], [2479].
Конечно, проприетарные (частные) датасеты эмоциональной речи, собранные крупными российскими компаниями, по объёмам многократно превосходят открытые аналоги. Использование больших проприетарных датасетов позволяет создавать модели распознавания эмоций, существенно превосходящие по точности модели, описанные в научных публикациях. Однако у начинающих разработчиков и университетских исследователей нет никакой альтернативы использованию открытых датасетов, поэтому наличие последних весьма важно для обучения новых специалистов и развития науки.
- Предыдущая
- 259/368
- Следующая

