Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 279
3. Современные многослойные трансформеры не являются рекуррентными сетями, значит, число «шагов рассуждения» при вычислении сети конечно — это мешает моделям выполнять многие нехитрые алгоритмы (арифметические действия с большими числами, сортировка больших списков, «перевёртывание» длинных списков или текста, подсчёт элементов и т. д.).
Внимательный читатель может задаться вопросом: если вышесказанное верно, то каким же образом сервисы, подобные ChatGPT или GigaChat, способны генерировать ответы практически произвольной длины? В действительности, как мы уже рассказывали ранее, нейросети, подобные GPT-3 или ruGPT-3.5, на выходе дают лишь распределение вероятностей для следующего токена в последовательности. Сама же последовательность генерируется не нейросетью, а алгоритмом семплирования, который выбирает токены из распределения, предсказываемого нейросетью. Этот алгоритм основан обычно на нехитрой системе правил и не является продуктом машинного обучения. Сигналом окончания генерации является специальный токен, обозначающий конец текста, или же превышение заданного лимита длины последовательности. Таким образом, система, состоящая из генеративной языковой модели и алгоритма семплирования, действительно способна выполнить почти неограниченное число шагов рассуждения, однако не способна самостоятельно вырабатывать последовательность из необходимых для решения задачи шагов. Конечно, можно попытаться дообучить языковую модель на диалогах, содержащих между вопросом пользователя и правильным ответом некоторое количество прописанных в явном виде шагов рассуждения. Например:
Пользователь: Какое слово получится, если перевернуть слово «база»?
Система: Для решения этой задачи предпримем следующие шаги:
1. Берём пустую строку и слово «база».
2. Удаляем из слова «база» последнюю букву и прибавляем её к нашей строке, получаем строку «а» и слово «баз».
3. Удаляем из слова «баз» последнюю букву и прибавляем её к нашей строке, получаем строку «аз» и слово «ба».
4. Удаляем из слова «ба» последнюю букву и прибавляем её к нашей строке, получаем строку «аза» и слово «б».
5. Удаляем из слова «б» последнюю букву и прибавляем её к нашей строке, получаем строку «азаб» и пустое слово.
Теперь буквы в слове кончились, а полученная нами строка «азаб» будет ответом на заданный вопрос.
Ответ: азаб
Этот подход получил название «Цепь рассуждений» [Chain-of-Thought]. Он позволяет справиться с некоторыми несложными задачами, требующими нескольких шагов рассуждения, но, к сожалению, для его использования необходима специальная разметка обучающих данных и он подходит пока лишь для сравнительно простых задач[2699].
Этот подход вполне можно расширить до деревьев рассуждений [Tree of Thoughts][2700], а дальше и до графов[2701] и гиперграфов, почему бы и нет? Вообще одной из очевидных идей для решения проблем 2 и 3 является создание гибридных архитектур, которые могут быть получены в результате добавления рекуррентных связей в трансформерные модели. Но сделать это можно очень разными способами. Вероятно, первая попытка была предпринята в 2018 г., когда группа исследователей из DeepMind и Google Brain предложила архитектуру под названием «универсальный трансформер» [Universal Transformer]. В ней сигналы (активации) циркулируют внутри кодирующей и декодирующей частей сети до тех пор, пока не будет превышено заданное максимальное число шагов или на выходе специальной подсети, ответственной за динамическую остановку [dynamic halting], не будет сгенерирован соответствующий сигнал[2702]. В последующие годы другие исследовательские группы предложили ряд альтернативных рекуррентно-трансформерных архитектур, например: R‑Transformer[2703], Transformer-XL[2704], Looped Transformer[2705] и так далее.
(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})Вообще важным классом моделей машинного обучения являются модели с адаптивным временем вычисления [Adaptive Computation Time] [2706], [2707] , [2708]. Идея этого подхода в том, что в модель встраивается механизм, позволяющий ей самостоятельно принимать решение о завершении вычислений, если решение, соответствующее заданным критериям, уже найдено, и продолжать вычисления, если необходимые критерии ещё не достигнуты. При этом сами критерии остановки также могут быть выучены моделью. Действительно, во многих интеллектуальных задачах для получения конечного результата в некоторых сложных случаях может потребоваться значительно больше вычислений, чем в более простых. При таком подходе вы можете динамически решать, как долго следует обрабатывать входные данные, обучая нейронную сеть автоматически адаптироваться к различным ситуациям. Например, при игре в шахматы в некоторых позициях мы делаем очевидные ходы практически мгновенно, в то время как сложные комбинации требуют длительного расчёта. Для того чтобы отсортировать список чисел из двух элементов, нужны лишь мгновения, а сортировка списка из миллиарда чисел даже у современного компьютера потребует заметных затрат времени.
Хотя мейнстримные исследования сосредоточены в наши дни вокруг трансформерных моделей, ряд исследовательских групп продолжает работу над развитием рекуррентных архитектур. Мы уже упоминали некоторые из них, такие как AWD-LSTM, Mogrifier LSTM и LEM. Вот ещё некоторые заслуживающие внимания работы последних лет: LRU (Linear Recurrent Unit, Линейный рекуррентный блок)[2709], RWKV (Receptance Weighted Key Value, Взвешенные на восприимчивость пары «ключ, значение») [2710] и различные модификации так называемых «моделей пространства состояний» (State Space Models, SSM), такие как, например, H3 (Hungry Hungry Hippos, Голодные-голодные бегемоты) [2711], S4 (Structured State Space sequence, Структурное пространство состояний для последовательностей) [2712], [2713], Liquid S4 (Liquid Structural State-Space Models, Плавные модели структурного пространства состояний) [2714], S4D (S4 с диагональными матрицами состояний)[2715], S5 (Simplified Structured State Space sequence, Упрощённое структурное пространство состояний для последовательностей) [2716]. В 2023 г. исследователи из компании Microsoft предложили свою альтернативу классическим трансформерам — так называемые «сохраняющие сети» (Retentive Network, RetNet), сочетающие механизмы параллельной, рекуррентной и поблочно-рекуррентной обработки элементов последовательности. Эксперименты, поставленные создателями новой модели, продемонстрировали, что, начиная с моделей размером более 6 млрд параметров, сети, построенные на RetNet-блоках, превосходят трансформерные нейросети в точности. Кроме того, сохраняющие сети способны работать с длинными контекстами и требуют значительно меньше памяти и вычислений на этапе выполнения (инференса)[2717].
- Предыдущая
- 279/368
- Следующая

