Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 216
Также стоит отметить, что наборы генеративных правил, предложенных Хомским, изначально опирались лишь на грамматику английского языка (и, возможно, отчасти иврита — единственного языка, кроме родного, с которым Хомский был сравнительно неплохо знаком). Иерархия правил на протяжении лет много раз дополнялась и пересматривалась. Словом, неудивительно, что не все специалисты в области компьютерной лингвистики были в восторге от идей Хомского, что и приводило к появлению теорий, подобных ТСТ.
Одним из результатов работы основоположников ТСТ было создание системы машинного перевода ЭТАП (Электротехнический автоматический перевод), работа над которой началась в 1972 г. в институте «Информэлектро» при Министерстве электромеханической промышленности СССР. Заведовал группой автоматического перевода в «Информэлектро» Апресян, а главным архитектором системы стал Леонид Цинман. Плодами работы группы стали системы ЭТАП-1 (предназначенная для перевода с французского языка), ЭТАП-2 (для перевода с английского), а также многоцелевой лингвистический процессор ЭТАП-3. Причём ЭТАП-3 предназначался для решения широкого спектра задач обработки естественного языка, среди которых был и машинный перевод. С 1985 г. команда, занимавшаяся созданием системы ЭТАП, продолжила свою работу в Институте проблем передачи информации (ИППИ РАН), где на её основе была создана Лаборатория компьютерной лингвистики[2073], [2074].
Важно отметить, что при обработке естественного языка в рамках классической парадигмы ИИ (вне зависимости от особенностей применяемого подхода — ТСТ, порождающей грамматики и т. д.), помимо описания языковых структур, необходимо выполнять также ряд операций на уровне отдельных слов. Для того чтобы программа могла выстроить структуру текста, необходимо выполнить его лексическую предобработку (препроцессинг). Создание алгоритмов для эффективного препроцессинга — отдельный, весьма внушительный пласт работы в области компьютерной лингвистики. Определение формы слова, лемматизация (приведение слова к его начальной форме, например «кошкам» → «кошка»), словообразование — всё это требует наличия адекватных морфологических моделей. В СССР над такими моделями работали многие выдающиеся лингвисты, в числе которых можно отметить Андрея Зализняка.
В 1974 г. открылся Всесоюзный центр переводов научно-технической литературы и документации ГКНТ и АН СССР (ВЦП), сотрудники которого начали разработку сразу трёх систем, предназначенных для выполнения машинного перевода в промышленных масштабах. Система для англо-русского перевода получила название АМПАР, для немецко-русского — НЕРПА и для французско-русского — ФРАП[2075].
В 1970-е гг. RBMT-системы (напомним, что это системы перевода на основе правил) активно развивались и на Западе, как в рамках коммерческих проектов, таких как SYSTRAN, так и в академической среде. Репутация систем машинного перевода в глазах американских государственных чиновников, пошатнувшаяся после отчёта ALPAC, была в определённой мере восстановлена благодаря успехам системы Logos MT, использовавшейся для перевода военной документации на вьетнамский язык во время войны во Вьетнаме. Что же до академии, то центры разработки систем машинного перевода возникали порой в довольно неожиданных местах. Например, в 1970 г. во Французском текстильном институте (Institut Textile de France) была создана система TITUS, использовавшаяся для перевода аннотаций к научным статьям. Система поддерживала целых четыре языка — французский, английский, немецкий и испанский — и могла выполнять перевод с и на каждый из этих языков. В 1972 г. в Китайском университете Гонконга (Chinese University of Hong Kong) была создана система CULT (Chinese University Language Translator, Переводчик Китайского университета), предназначенная для перевода математических текстов с китайского языка на английский[2076], [2077]. В 1971 г. Университет Бригама Янга (Brigham Young University, BYU) — частный университет США, основанный Церковью Иисуса Христа Святых последних дней, — начал проект по переводу текстов мормонов на другие языки с помощью машинного перевода[2078], [2079]. На фоне таких исследовательских организаций советский институт «Информэлектро» в качестве одного из мировых центров развития технологий машинного перевода вовсе не казался какой-то экзотикой.
Несмотря на отдельные успехи RBMT-систем, почти одновременно с выходом их на мировую арену начинается активный поиск альтернативных подходов. Идеи Уивера об использовании в переводе статистических методов вновь приобретают актуальность, особенно в свете растущей производительности вычислительных машин. В Советском Союзе это направление получило развитие благодаря усилиям Раймунда Пиотровского. В 1957 г. по его инициативе была создана исследовательская группа «Статистика речи», к которой со временем присоединился ряд исследователей из различных вузов со всех уголков Советского Союза[2080]. В работе группы участвовали лингвисты, математики и программисты[2081]. Пиотровский рассматривал естественный язык как нечёткую систему, которая охватывает размытые множества, состоящие из нечётких лингвистических объектов[2082].
В 1971 г. при Ленинградском государственном педагогическом институте имени А. И. Герцена (ЛГПИ) под руководством Пиотровского была создана Научно-исследовательская лаборатория инженерной лингвистики, сотрудники которой активно занимались разработкой технологий для автоматической обработки текста. В 1991 г. бывшие сотрудники этой лаборатории под руководством Светланы Соколовой основали компанию PROMT[2083]. Название PROMT является сокращением от PROject of Machine Translation (Проект машинного перевода). В октябре 1998 г. компания запустила первый российский сервис машинного перевода — translate.ru.
Первые версии PROMT использовали RBMT-подход, а в 2009 г. компания представила гибридную технологию перевода, использующую элементы статистического машинного перевода.
В 2006 г. компания Google запустила бесплатный сервис Google Translate, основанный на технологии статистического машинного перевода. Идея Google Translate основывалась на поиске определённых структур в корпусе текстов, чтобы затем на базе анализа найденных структур принять решение о том, какие именно варианты перевода слов следует выбрать и как расположить их в структуре целевого языка. Изначально Google Translate практически во всех случаях использовал английский в качестве языка-посредника, то есть при переводе в любой языковой паре, не включающей в себя английский язык, текст сначала переводился с языка-источника на английский, а затем полученный англоязычный текст переводился на целевой язык перевода. Двойной перевод в совокупности с низкой грамматической точностью ранних статистических алгоритмов приводил к сравнительно невысокому качеству перевода, что стало источником множества шуток и забавных ошибок, превратившихся в мемы, однако сам сервис приобрёл большую популярность во всём мире.
Парадоксальным образом в эпоху больших данных ранние системы статистического перевода страдали именно от нехватки данных. Хотя за 2000–2010 гг. уже было накоплено огромное количество оцифрованных текстов, двуязычные тексты, основанные на точных и хорошо синхронизированных с оригиналами переводах, оставались большой редкостью. Создатели Google Translate были вынуждены использовать в качестве базы для статистического перевода документы и стенограммы Организации Объединённых Наций и Европейского парламента, однако этот корпус не столь уж велик и вдобавок весьма ограничен с точки зрения стиля и набора тем.
- Предыдущая
- 216/368
- Следующая

