Для обучения Jukebox авторы исследования использовали набор данных, состоящий приблизительно из 1,2 млн песен (примерно половина из них была на английском языке) в сочетании с соответствующими текстами песен и метаданными (исполнитель, жанр альбома, год создания песни, распространённые ключевые слова и отметки настроения для плейлистов, содержащих песню), позаимствованными у проекта LyricWiki. Весь звук был преобразован в моно, при этом для аугментации данных исследователи добавляли в обучающую выборку несколько версий каждой из песен, немного варьируя пропорции при смешении каналов.

Сеть верхнего уровня получает на вход информацию об исполнителе и жанре песни. Помимо исполнителя и жанра, используется текст песни. Большой проблемой при этом является отсутствие хорошо согласованного набора данных: тексты песен обычно не содержат меток временного выравнивания относительно звукозаписи. То есть текстовые данные существуют в отрыве от звуковых — точно неизвестно, в какой момент поются те или иные слова (здесь могли бы помочь записи для караоке, но их сравнительно немного). Чтобы выровнять текст относительно звуковой дорожки, авторы применяют специальную модель для автоматического выравнивания, использование которой, впрочем, не всегда позволяет достичь идеальной точности.

В январе 2023 г. свою новую нейросеть для генерации музыки представили исследователи из Google. Сеть получила название MusicLM. Она способна генерировать аудиозаписи с частотой дискретизации 24 кГц на основе текстовых описаний, таких как «успокаивающая мелодия скрипки, сопровождаемая гитарным риффом с дисторшн-эффектом» [a calming violin melody backed by a distorted guitar riff]. Авторы модели также опубликовали набор данных MusicCaps, состоящий из 5 521 пары «текстовое описание — музыка»[2981].

Несмотря на то что Jukebox и MusicLM стали большими шагами вперёд в отношении качества музыки и возможности управлять результатами композиции, разрыв между созданной ими музыкой и музыкой, сочинённой и исполненной людьми, всё ещё значителен. Хотя сгенерированные песни демонстрируют локальную музыкальную согласованность, следуют традиционным последовательностям аккордов и даже могут содержать впечатляющие соло, в них отсутствуют характерные признаки крупномасштабной семантической структуры (например, припевы). Автокодировщики нередко вносят в звуковой ряд заметный шум. Кроме того, скорость синтеза чрезвычайно медленная. В экспериментах авторов модели для создания одной минуты звука требовалось около 9 часов, поэтому Jukebox пока что нельзя использовать в интерактивных приложениях. Помимо этого, модель может сочинять песни только на английском языке. И всё же в числе отобранных авторами исследования композиций есть замечательные образцы. Чего стоят хотя бы ожившие голоса Луи Армстронга и Фрэнка Синатры, поющие современные тексты в своём узнаваемом стиле! При этом прелесть ИИ заключается в том, что в будущем результаты будут только улучшаться. Талантливый композитор или исполнитель не столь долговечен, как человеческие знания и технологии. Композиторы и исполнители современности не всегда могут достичь столь же выдающихся результатов, как их предшественники, в отношении же моделей машинного обучения технический прогресс обещает нам движение только вперёд, без отступлений и компромиссов.

6.6.12 Машина создаёт всё: мультимодальные модели

В конце 2020 г. исследователи из Microsoft обнародовали работу, посвящённую созданию модели M3P (Multitask Multilingual Multimodal Pre-training, Многозадачное многоязычное мультимодальное предобучение)[2982]. Здесь мы снова, как и в случае с моделью Z-code M3, видим в названии три M, но теперь третья M обозначает не MoE, а мультимодальность. Таким образом, вероятно, в отношении некоторых моделей уже сейчас можно употребить термин M4: например, WuDao 2.0 является одновременно многозадачной, многоязычной, мультимодальной и MoE-моделью.

(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})

Вышедшая в мае 2022 г. работа[2983] исследователей из DeepMind под лаконичным названием «Универсальный агент» [A Generalist Agent] представила миру модель под названием Gato (gato по-испански означает «кот»; в статье это название никак не расшифровывается). Модель обучали выполнению 604 различных задач, в числе которых ведение диалога, написание подписей к изображениям, игра в игры Atari и даже складывание блоков при помощи роборуки. Хотя модель по современным меркам была весьма небольшой (всего 1,2 млрд параметров), она смогла превзойти людей в 450 из 604 вышеупомянутых задач. Архитектурно Gato — это трансформер, в котором словарь включает в себя токены, относящиеся к разным модальностям (фрагменты текстовых последовательностей, фрагменты изображений, действия роборуки и т. д.). Способность Gato управлять различными устройствами подводит нас к ещё одной букве M, а именно к такому свойству модели, как «мультивоплощение» [multi-embodiment]. Если бы Gato была ещё и MoE-моделью, то её смело можно было бы отнести к типу M5.

Эстафету исследователей из DeepMind подхватили их коллеги из Google. Немного раньше они экспериментировали с бимодальной текстово-визуальной моделью под названием PaLI (Pathways Language and Image model, Языковая и визуальная модель на основе системы Pathways)[2984], и, взяв за основу свою большую (540 млрд параметров) языковую модель PaLM, они расширили её, добавив новые модальности (изображения, а также модальности для сенсоров и действий). Итоговая модель с 562 млрд параметров получила название PaLM-E, где буква E является сокращением от слова embodied [воплощённая][2985].

В конце 2022 г. исследователи из Google порадовали общественность ещё одной многозадачной трансформерной моделью — RT-1 (Robotic Transformer-1, Трансформер для роботов — 1)[2986], предназначенной для управления роботом, решающим задачи в реальном мире. В июле 2023 г. была представлена вторая версия модели — RT-2[2987], а в начале октября 2023 г. был опубликован набор данных под названием RT-X[2988]. Он был создан DeepMind совместно с партнёрами из 33 академических лабораторий и содержит в себе примерно миллион примеров решений 22 моделями роборук 150 000 задач, относящихся к более чем 500 навыкам. Исследователи смогли показать, что добавление в обучающую выборку трансформерной модели данных, относящихся не только к целевому, но и к другим типам роботов, приводит к существенному росту доли успешно решаемых задач. Чтобы исследовать этот эффект передачи знаний, авторы изучили работу роборуки под управлением модели RT‑2, обученной с привлечением данных, полученных на других роборуках. Оказалось, что этот подход позволяет примерно в три раза повысить долю успешных решений на новых для системы задачах.

Нейросети, используемые для моделирования мультимодальных последовательностей, в последнее время принято обозначать термином MLLM (Multimodal Large Language Models, Мультимодальные большие языковые модели). За последние годы появилось довольно много MLLM, помимо PaLI тут стоит упомянуть вышедшие в 2023 г. FROMAGe[2989] от Руслана Салахутдинова и его команды из Университета Карнеги — Меллона, Qwen-VL от исследователей из Alibaba Cloud[2990], а также Kosmos-1[2991] и Kosmos-2[2992] от исследователей из Microsoft.

Выбрать книгу по жанру

Фантастика и фэнтези

Детективы и триллеры

Проза

Любовные романы

Приключения

Детские

Поэзия и драматургия

Старинная литература

Научно-образовательная

Компьютеры и интернет

Справочная литература

Документальная литература

Религия и духовность

Юмор

Дом и семья

Деловая литература

Жанр не определен

Техника

Прочее

Драматургия

Фольклор

Военное дело

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 300

Связь с нами