3. Современные многослойные трансформеры не являются рекуррентными сетями, значит, число «шагов рассуждения» при вычислении сети конечно — это мешает моделям выполнять многие нехитрые алгоритмы (арифметические действия с большими числами, сортировка больших списков, «перевёртывание» длинных списков или текста, подсчёт элементов и т. д.).

Внимательный читатель может задаться вопросом: если вышесказанное верно, то каким же образом сервисы, подобные ChatGPT или GigaChat, способны генерировать ответы практически произвольной длины? В действительности, как мы уже рассказывали ранее, нейросети, подобные GPT-3 или ruGPT-3.5, на выходе дают лишь распределение вероятностей для следующего токена в последовательности. Сама же последовательность генерируется не нейросетью, а алгоритмом семплирования, который выбирает токены из распределения, предсказываемого нейросетью. Этот алгоритм основан обычно на нехитрой системе правил и не является продуктом машинного обучения. Сигналом окончания генерации является специальный токен, обозначающий конец текста, или же превышение заданного лимита длины последовательности. Таким образом, система, состоящая из генеративной языковой модели и алгоритма семплирования, действительно способна выполнить почти неограниченное число шагов рассуждения, однако не способна самостоятельно вырабатывать последовательность из необходимых для решения задачи шагов. Конечно, можно попытаться дообучить языковую модель на диалогах, содержащих между вопросом пользователя и правильным ответом некоторое количество прописанных в явном виде шагов рассуждения. Например:

Пользователь: Какое слово получится, если перевернуть слово «база»?

Система: Для решения этой задачи предпримем следующие шаги:

1. Берём пустую строку и слово «база».

2. Удаляем из слова «база» последнюю букву и прибавляем её к нашей строке, получаем строку «а» и слово «баз».

3. Удаляем из слова «баз» последнюю букву и прибавляем её к нашей строке, получаем строку «аз» и слово «ба».

4. Удаляем из слова «ба» последнюю букву и прибавляем её к нашей строке, получаем строку «аза» и слово «б».

5. Удаляем из слова «б» последнюю букву и прибавляем её к нашей строке, получаем строку «азаб» и пустое слово.

Теперь буквы в слове кончились, а полученная нами строка «азаб» будет ответом на заданный вопрос.

Ответ: азаб

Этот подход получил название «Цепь рассуждений» [Chain-of-Thought]. Он позволяет справиться с некоторыми несложными задачами, требующими нескольких шагов рассуждения, но, к сожалению, для его использования необходима специальная разметка обучающих данных и он подходит пока лишь для сравнительно простых задач[2699].

Этот подход вполне можно расширить до деревьев рассуждений [Tree of Thoughts][2700], а дальше и до графов[2701] и гиперграфов, почему бы и нет? Вообще одной из очевидных идей для решения проблем 2 и 3 является создание гибридных архитектур, которые могут быть получены в результате добавления рекуррентных связей в трансформерные модели. Но сделать это можно очень разными способами. Вероятно, первая попытка была предпринята в 2018 г., когда группа исследователей из DeepMind и Google Brain предложила архитектуру под названием «универсальный трансформер» [Universal Transformer]. В ней сигналы (активации) циркулируют внутри кодирующей и декодирующей частей сети до тех пор, пока не будет превышено заданное максимальное число шагов или на выходе специальной подсети, ответственной за динамическую остановку [dynamic halting], не будет сгенерирован соответствующий сигнал[2702]. В последующие годы другие исследовательские группы предложили ряд альтернативных рекуррентно-трансформерных архитектур, например: R‑Transformer[2703], Transformer-XL[2704], Looped Transformer[2705] и так далее.

(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})

Вообще важным классом моделей машинного обучения являются модели с адаптивным временем вычисления [Adaptive Computation Time] [2706], [2707] , [2708]. Идея этого подхода в том, что в модель встраивается механизм, позволяющий ей самостоятельно принимать решение о завершении вычислений, если решение, соответствующее заданным критериям, уже найдено, и продолжать вычисления, если необходимые критерии ещё не достигнуты. При этом сами критерии остановки также могут быть выучены моделью. Действительно, во многих интеллектуальных задачах для получения конечного результата в некоторых сложных случаях может потребоваться значительно больше вычислений, чем в более простых. При таком подходе вы можете динамически решать, как долго следует обрабатывать входные данные, обучая нейронную сеть автоматически адаптироваться к различным ситуациям. Например, при игре в шахматы в некоторых позициях мы делаем очевидные ходы практически мгновенно, в то время как сложные комбинации требуют длительного расчёта. Для того чтобы отсортировать список чисел из двух элементов, нужны лишь мгновения, а сортировка списка из миллиарда чисел даже у современного компьютера потребует заметных затрат времени.

Хотя мейнстримные исследования сосредоточены в наши дни вокруг трансформерных моделей, ряд исследовательских групп продолжает работу над развитием рекуррентных архитектур. Мы уже упоминали некоторые из них, такие как AWD-LSTM, Mogrifier LSTM и LEM. Вот ещё некоторые заслуживающие внимания работы последних лет: LRU (Linear Recurrent Unit, Линейный рекуррентный блок)[2709], RWKV (Receptance Weighted Key Value, Взвешенные на восприимчивость пары «ключ, значение») [2710] и различные модификации так называемых «моделей пространства состояний» (State Space Models, SSM), такие как, например, H3 (Hungry Hungry Hippos, Голодные-голодные бегемоты) [2711], S4 (Structured State Space sequence, Структурное пространство состояний для последовательностей) [2712], [2713], Liquid S4 (Liquid Structural State-Space Models, Плавные модели структурного пространства состояний) [2714], S4D (S4 с диагональными матрицами состояний)[2715], S5 (Simplified Structured State Space sequence, Упрощённое структурное пространство состояний для последовательностей) [2716]. В 2023 г. исследователи из компании Microsoft предложили свою альтернативу классическим трансформерам — так называемые «сохраняющие сети» (Retentive Network, RetNet), сочетающие механизмы параллельной, рекуррентной и поблочно-рекуррентной обработки элементов последовательности. Эксперименты, поставленные создателями новой модели, продемонстрировали, что, начиная с моделей размером более 6 млрд параметров, сети, построенные на RetNet-блоках, превосходят трансформерные нейросети в точности. Кроме того, сохраняющие сети способны работать с длинными контекстами и требуют значительно меньше памяти и вычислений на этапе выполнения (инференса)[2717].

Выбрать книгу по жанру

Фантастика и фэнтези

Детективы и триллеры

Проза

Любовные романы

Приключения

Детские

Поэзия и драматургия

Старинная литература

Научно-образовательная

Компьютеры и интернет

Справочная литература

Документальная литература

Религия и духовность

Юмор

Дом и семья

Деловая литература

Жанр не определен

Техника

Прочее

Драматургия

Фольклор

Военное дело

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 279

Связь с нами