Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 217
Последующее появление обширных синхронных корпусов дву- и многоязычных текстов сильно помогло обучению новых, нейросетевых моделей. Например, в 2021–2022 гг. компания Meta (бывшая Facebook), опубликовала корпуса FLORES (Facebook Low Resource, Малоресурсные [языки] от Facebook) и NLLB (No Language Left Behind, Ни один язык не будет брошен), содержащие свыше 450 Гб синхронных текстов, охватывающих более 200 языков. Обученная на этих данных нейросетевая модель, получившая название NLLB-200[2084], была выложена исследователями в открытый доступ и по сей день является одним из лучших открытых решений для задач машинного перевода (придя на смену своей предшественнице — созданной в 2020 г. модели M2M-100[2085]). В августе 2023 г. исследователи из Meta выпустили модель SeamlessM4T (Seamless Massively Multilingual & Multimodal Machine Translation, Бесшовный массово многоязычный и мультимодальный машинный перевод) — эта модель способна принимать на вход текст или аудиозапись речи более чем на ста поддерживаемых языках и выдавать на выход перевод: в виде текста более чем на ста языках, а в виде аудиозаписи — на 36 языках[2086].
О том, какие архитектуры лежат в основе таких моделей, мы расскажем несколько позже.
6.3.2.6 Метрики и проблемы качества перевода
Хотя поздние RBMT-системы и ранние системы статистического перевода и не смогли достичь уровня качества профессиональных переводчиков, но смогли уверенно доказать свою полезность. Дело в том, что доступность профессионального перевода для среднестатистического читателя весьма ограниченна, особенно если речь идёт о не самых распространённых языках. Вряд ли рядовой пользователь интернет-форумов и социальных сетей станет обращаться к профессиональным переводчикам, чтобы прочитать комментарии иностранцев под видео любимой музыкальной группы. Услуги же системы машинного перевода обычно бесплатны и с точки зрения скорости и простоты выполнения перевода во много раз превосходят услуги людей-переводчиков. Там, где перевод осуществляется в развлекательных целях, цена ошибки сравнительно невелика, тем более что лишь небольшая часть ошибок машинного перевода искажает текст настолько, чтобы сделать непонятным смысл переведённой фразы. За последние два или три десятилетия было проделано множество попыток подсчитать, во сколько раз постредактирование машинного перевода быстрее, чем выполнение перевода с нуля. Полученный разброс оценок составил от двух- до более чем 10-кратного ускорения перевода при использовании постредактирования. И в этом нет ничего удивительного, ведь даже данные отчёта ALPAC говорят о том, что уже в 1960-е гг. постредактирование могло успешно конкурировать с полным переводом «вручную».
Тем не менее оценка реального прогресса в области машинного перевода всегда была связана с определёнными трудностями. Если не брать в расчёт грубые ошибки, оценка качества перевода содержит в себе субъективный элемент. Конечно, можно использовать усреднение оценок разных людей, на этом подходе основана, например, метрика, получившая название «усреднённая субъективная оценка» (Mean opinion score, MOS), однако её расчёт является в ряде случаев весьма затратным и небыстрым мероприятием. Поэтому в 2010-е гг. для оценки качества машинного перевода стали активно использовать автоматизированные метрики, такие как BLEU (Bilingual Evaluation Understudy, Двуязычная оценка сходства)[2087], TER (Translation Edit Rate, Доля редактирования перевода — аналог WER при распознавании речи)[2088], AMBER (A Modified BLEU, Enhanced Ranking, Модифицированный BLEU с улучшенным ранжированием)[2089], METEOR (Metric for Evaluation of Translation with Explicit ORdering, Метрика оценки перевода с явным упорядочением)[2090], LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall, Штраф за длину, точность, штраф за разницу в позициях n‑грамм и полнота)[2091], nLEPOR[2092], hLEPOR[2093], ROUGE (Recall-Oriented Understudy for Gisting Evaluation, Ориентированный на полноту аналог оценки кратких аннотаций)[2094] — изначально разработанная для оценки сжатого изложения текста, BERTScore (оценка перевода при помощи нейросетевой архитектуры BERT, о которой мы поговорим позже)[2095] и так далее. Все эти метрики преследуют одну простую цель — при наличии перевода для оценки, а также референсного (эталонного) перевода, выполненного профессиональным переводчиком, оценить качество сделанного перевода. Если бы каждому предложению соответствовал единственный правильный перевод, то оценка качества перевода была бы тривиальной задачей, однако вариативность естественных языков настолько велика, что оценивать перевод, используя посимвольное сравнение с эталоном, нельзя — полученная оценка будет слабо коррелировать с оценками экспертов. Идея распространённой метрики BLEU, разработанной Кишором Папинени и его коллегами из IBM в 2001 г.[2096] и опубликованной в статье[2097] 2002 г., заключается в том, чтобы рассчитать долю совпадения n‑грамм в оцениваемом и референсном переводах, умножить её на поправочный коэффициент в случае, если длина (в словах) оцениваемого перевода меньше длины референсного, и, сделав данные подсчёты для разных n (от униграмм до квадрограмм), вычислить их среднее геометрическое как итоговый результат. Данная метрика является одной из наиболее простых и популярных метрик машинного перевода. Однако из-за простоты её адекватность регулярно подвергается критике, поэтому за последние два десятилетия был предложен ряд улучшений и альтернатив, в детали которых мы сейчас вдаваться не будем. Считается, что значение BLEU больше 0,5 соответствует очень хорошему переводу. В 2012 г. для пары «немецкий — английский» значение BLEU для лучшей из систем, представленных на VII Симпозиуме по статистическому машинному переводу (Workshop on Statistical Machine Translation), составило 0,24 (для сравнения: на сентябрь 2023 г. — 0,41), для пары «французский — английский» — 0,30 (на сентябрь 2023 г. — 0,46), а для пары «испанский — английский» — 0,38 (на сентябрь 2023 г. — 0,42)[2098], [2099], [2100], [2101]. К сожалению, сравнения проделаны на разных параллельных корпусах, поэтому их сопоставимость находится под вопросом, однако в целом прогресс в качестве перевода очевиден.
(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})Быстрое развитие интернета и социальных сетей резко повысило спрос на сервисы машинного перевода, и непростая задача по наладке мультикультурного диалога внезапно легла на плечи алгоритмов, которые ещё недавно нередко воспринимались как игрушки, представляющие разве что теоретический интерес. Магазин под вывеской Translation server error [Ошибка сервера перевода], «Сосиска в тесте», в переводе превратившаяся в Sausage in the father in law (сосиску в тесте, но не в смысле «тесто», а в смысле «тесть»), московские вывески для китайских туристов, превратившие «Патриаршее подворье» в «Деревню шовинистов», а Красную площадь в «Красную колбасу», — всё это смешные реалии мира внезапно победившего машинного перевода. Ошибки машинного перевода стали отдельным жанром, породившим свои фанфики, вроде текста «Гуртовщики мыши» (якобы изуродованный машинным переводом документ, посвящённый драйверам мыши).
- Предыдущая
- 217/368
- Следующая

