Хотя на первый взгляд может показаться, что RBMT-подход способен при должном усердии разработчиков найти приемлемые решения в большинстве случаев, практика обнажает серьёзные проблемы. Их наличие стало очевидным в конце условной эпохи «бури и натиска» в машинном переводе, то есть в 1950–1960-е гг., когда на волне общего энтузиазма в области вычислительной техники казалось, что проблема машинного перевода вот-вот будет решена. Хороший пример таких проблем привёл заведующий Лабораторией компьютерной лингвистики ИППИ РАН Игорь Богуславский. Простое предложение «Моих детей звали Иван и Пётр» RBMT-система интерпретирована не в том смысле, что именами детей были Пётр и Иван, а в том смысле, что некие Иван и Пётр позвали к себе детей[2102]. Этот пример хорошо демонстрирует, что в ряде случаев локальные правила, работающие с текстом на уровне отдельных предложений, просто неспособны разрешить имеющуюся неопределённость, причём в ситуациях, когда речь не идёт о каких-то вычурных синтаксических конструкциях — предложение, показанное Богуславским, является совершенно ординарным, ничем не выдающимся на фоне других предложений в текстах общей тематики. Работая с таким предложением, человек-переводчик использует собственное понимание описываемых в тексте событий, он создаёт в своей голове модель мира, события которого описывает текст, и, отталкиваясь от этой модели, делает вывод о вероятности того или иного способа разрешения существующей в тексте неопределённости. Хуже того, эта картина опирается на знания переводчика об особенностях человеческой культуры. Скажем, переводчик знает об обычае запекать сосиску, обернув её слоем теста, поэтому ему в общем случае вряд ли придёт в голову идея о том, что сосиска может быть внутри тестя, а не теста. Хотя, разумеется, всё зависит от контекста, в текстах специфической тематики вариант с тестем вполне может оказаться правильным. Учитывая все эти сложности, некоторые эксперты относят машинный перевод к числу ИИ-полных задач, и доказать или опровергнуть их точку зрения смогут лишь дальнейшие успехи в этой сложной, но чрезвычайно интересной области ИИ.

Впрочем, революция глубокого обучения вполне ожидаемо оказала влияние и на машинный перевод (о чём мы поговорим в следующем разделе), что даёт нам некоторые соображения относительно того, как этот спор будет разрешён.

В конце 2010-х гг. появились первые исследования, посвящённые систематическому мониторингу качества машинного перевода. В первую очередь речь идёт об обзорах[2103], [2104], [2105], [2106], публикуемых группой исследователей из компании Intento под руководством Григория Сапунова. Обзор 2020 г. включает в себя анализ качества работы 15 различных систем машинного перевода для 15 отраслей и 14 языковых пар. Сравнение производилось на основе современных метрик качества перевода (в первую очередь BERTScore). При подготовке Стэнфордского отчёта о развитии искусственного интеллекта Artificial Intelligence Index Report за 2019 г.[2107] именно исследование команды Сапунова легло в основу раздела о машинном переводе.

Исследования Intento показывают быстрый рост как числа систем машинного перевода и поддерживаемых ими языковых пар, так и качества самого перевода. Давайте попробуем разобраться в том, какие именно методы сделали возможным столь быстрый прогресс в этой сложной для машинного интеллекта области.

(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})

6.3.3 Семантическая вселенная: от Бенджио и Миколова до трансформеров

6.3.3.1 Представление текстовой информации

Для того чтобы использовать нейронные сети в задачах обработки текстов, составленных на естественном языке, нужно решить один важный вопрос: как представить текст в виде набора сигналов на входном или выходном слое нейронной сети? По сути, нам нужно превратить последовательность символов в некий упорядоченный набор чисел, а сделать это можно множеством разных способов. И, что вполне ожидаемо, от того, какой именно способ будет выбран, зависит как скорость обучения нейросетевой модели, так и способность обученной модели эффективно решать поставленную перед ней задачу.

Традиционным способом представления текстовой информации в вычислительной технике является посимвольное кодирование. Каждому символу сопоставляется некоторое число (порядковый номер символа в используемой таблице символов). Например, таблица символов ASCII (American standard code for information interchange, Американский стандартный код для обмена информацией), разработанная в начале 1960-х гг., изначально включала в себя 128 символов, то есть каждому символу таблицы соответствовало число в диапазоне [0…127], для хранения которого необходимо 7 бит информации. Теоретически можно взять, например, рекуррентную сеть с единственным нейроном во входном слое и на вход этого нейрона подавать последовательно коды каждого из символов текста в виде соответствующих сигналов. Или, например, расположить во входном слое семь нейронов, на каждый из которых подавать один из битов двоичного представления каждого из символов. Однако для решения большинства практических задач такие сети не подходят, и вот почему. Допустим, мы хотим создать сеть, которая будет способна, получив на вход некоторое высказывание на естественном языке, сделать вывод о том, ругательное это высказывание или нет. Основной структурной единицей языка является слово. Современные языки насчитывают обычно миллионы словоформ, некоторое подмножество которых относится к инвективной (ругательной) лексике. Чтобы научиться выделять ругательные слова, нейронная сеть в процессе обучения должна будет по сути на основании примеров «изобрести» деление текста на отдельные словоформы, а затем «понять», что наличие в тексте некоторых словоформ (тысячи их!) влияет на значение метки класса. Конечно, достаточно большие сети, обученные с применением огромных вычислительных ресурсов, способны справиться с подобной задачей, однако значительная часть произведённых вычислений будет представлять собой мартышкин труд. Уйма вычислительного времени уйдёт на выяснение того, что мы и так знаем: язык состоит из слов, хорошо известных нам по словарям, и эти слова имеют весьма ограниченный набор значений, лишь иногда зависящих от контекста. Эту информацию было бы неплохо использовать на уровне представления данных на входе сети, что могло бы существенно сократить требуемые для её обучения вычислительные ресурсы. Рассматривая текст в виде последовательности слов, а не символов, сеть могла бы «сосредоточиться» на «изучении» более высокоуровневой структуры высказываний. Если ограничить длину слова 10 буквами, а алфавит 26 английскими буквами, то общее число различных «слов», составленных из произвольных последовательностей символов, превысит 2 × 1014, что минимум в 20 млн раз больше числа реально существующих в английском языке словоформ. Заставлять нейронную сеть искать иголку в таком огромном стоге сена просто контрпродуктивно. Именно поэтому в большинстве случаев в качестве элементарной единицы представления текста в коннекционистских моделях обычно используют слова (словоформы) или части слов.

Взяв словарь, включающий в себя все существующие словоформы (а также знаки препинания и другие элементы текста), мы можем сопоставить каждое слово его порядковому номеру в словаре и использовать этот номер в качестве числового представления слова. Представим для простоты нерекуррентную сеть, которая способна обрабатывать лишь предложения из одного слова. В этом случае наша задача будет сведена к задаче определения того, является одиночное слово ругательством или нет. Получив на вход некоторое число, сеть должна отнести его к одному из двух классов — ругательство или не ругательство. И здесь оказывается, что «обучаемость» нашей сети будет очень сильно зависеть от того, как именно слова расположены в нашем словаре. Если слова-ругательства кто-то уже расположил в начале словаря, то задача становится тривиальной: если порядковый номер слова на входе сети меньше или равен числу ругательств в словаре, то слово является ругательством, в противном случае — не является. Однако, если ругательства рассеяны по словарю случайным образом, единственной возможностью для сети будет по сути запомнить все числа, соответствующие ругательствам, то есть каким-то образом выделить все диапазоны номеров слов, в пределах которых метка класса неизменна. Такая процедура не столь уж тривиальна, и в случае достаточно большого словаря для её выучивания потребуется довольно большая сеть и солидные вычислительные затраты. Да и результат вовсе не гарантирован, поскольку такая задача, скорее всего, не будет линейно разделимой. Поэтому, если мы не имеем дело с каким-то хитрым словарём, в котором порядковые номера слов связаны с их семантикой, лучше не использовать порядковый номер слова в качестве входного сигнала сети. Вместо этого уже на заре коннекционизма стали использовать так называемый прямой унитарный код — двоичный код фиксированной длины, содержащий только одну цифру 1 (например, 000001, 000010, 000100 и т. п.). Длина кода определяется количеством слов в словаре, то есть каждому слову соответствует отдельный разряд кода. Порядковый номер слова в словаре соответствует номеру единичного разряда. Современный специалист по глубокому обучению вместо «прямой унитарный код», скорее всего, скажет «one-hot-векторы», таковы уж причуды сложившегося профессионального жаргона. Хотя во входном слое вашей сети теперь столько же нейронов, сколько слов в вашем словаре, зато наша задача стала линейно разделимой. Размер словаря можно сократить, принеся в жертву редкие, низкочастотные слова, однако даже словарь в несколько десятков тысяч слов в ряде случаев может стать проблемой. Поэтому было придумано ещё несколько способов представления текста, более компактных, чем последовательность унитарных кодов. Рассмотрим наиболее популярные из них.

Выбрать книгу по жанру

Фантастика и фэнтези

Детективы и триллеры

Проза

Любовные романы

Приключения

Детские

Поэзия и драматургия

Старинная литература

Научно-образовательная

Компьютеры и интернет

Справочная литература

Документальная литература

Религия и духовность

Юмор

Дом и семья

Деловая литература

Жанр не определен

Техника

Прочее

Драматургия

Фольклор

Военное дело

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 218

Связь с нами