Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 289
Впрочем, даже без применения CAR современные модели показывают в этой задаче вполне приличные результаты. Ниже приведены примеры из современных работ, посвящённых разработке моделей для решения задачи SISR: «Сохраняющее структуру повышение разрешения с наведением по градиенту» [Structure-Preserving Super Resolution with Gradient Guidance][2805] и «Увеличение разрешения для одиночного изображения с помощью сети с холистическим вниманием» [Single Image Super-Resolution via a Holistic Attention Network][2806].
Вторая разновидность задачи ISR называется, как несложно догадаться, MISR (Multiple Image Super-Resolution, Увеличение разрешения для множества изображений). В случае MISR мы имеем дело с ситуацией, когда у нас есть несколько изображений с низким разрешением, по которым необходимо получить объединяющее изображение высокого разрешения. Одна из основных областей применения MISR — обработка спутниковых снимков. Примером модели, предназначенной для решения задачи MISR, является EvoNet, в которой выходы нескольких свёрточных сетей, решающих задачу SISR для каждого из изображений с низким разрешением, затем специальным образом комбинируются с учётом возможных сдвигов, а после этого подвергаются пошаговой фильтрации[2807].
Весной 2019 г. другая группа исследователей представила в статье «DM-GAN: генеративно-состязательные сети с динамической памятью для синтеза изображения на основе текста» (DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis)[2808] архитектуру DM-GAN, которая способна не только «рисовать» более реалистичных птичек, но и производить на свет что-то более или менее правдоподобное при работе с более разнообразным набором данных — COCO (Common Objects in COntext, Обычные объекты в контексте), содержащим более 200 000 размеченных изображений объектов, принадлежащих к одному из 80 классов (самолёты, кошки, собаки, пожарные гидранты и т. д.). На иллюстрации ниже можно наблюдать сравнение результатов DM-GAN с результатами StackGAN и ещё одной более ранней модели — AttnGAN[2809].
Ещё одна архитектура для синтеза изображений на основе текста была описана в статье 2019 г. под названием «CPGAN: генеративно-состязательные сети с анализом полного спектра контента для синтеза изображений на основе текста» (CPGAN: Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis)[2810].
На август 2020 г. эта архитектура лидировала по величине Inception score среди подобных моделей и обходила StackGAN и AttnGAN при оценке изображений людьми.
Но в самом начале 2021-го в этой области произошла очередная революция. Она была связана с появлением модели, получившей название DALL·E (в честь Сальвадора Дали и робота WALL-E из одноимённого анимационного фильма компании Pixar). Эта модель была создана исследователями из компании OpenAI. Архитектура генерирующей нейронной сети идентична версии модели GPT-3 с 13 млрд параметров. При этом используется словарь токенов, включающих в себя как элементы текста, так и элементы изображения. При обработке визуальных токенов используются несколько модифицированные матрицы внимания, но в целом перед нами наша старая знакомая, отличившаяся в задаче генерации текстов.
То, что трансформерные модели могут успешно обрабатывать изображения, было известно и ранее — пионерской работой в этом направлении в 2018 г. стала сеть Image Transformer[2811]. В 2020 г. на свет появились более совершенные модели — сначала Visual Transformer (Визуальный трансформер), или VT[2812], затем Vision Transformer (Зрительный трансформер), или ViT[2813], а затем улучшенные версии последнего — DEiT (Data-efficient image Transformer, Эффективный по отношению к данным трансформер изображений)[2814] и SWIN (от Shifted WINdow — сдвигающееся окно)[2815]. В том же году появились первые гибридные свёрточно-трансформерные архитектуры, например DETR (DEtection TRansformer, Трансформер обнаружения)[2816] от исследователей из Facebook, а чуть позже — его улучшенная версия Deformable DETR (Деформируемый DETR)[2817]. Созданная в 2021 г. гибридная нейросетевая архитектура — CMT (CNN Meet Transformers, Свёрточные нейронные сети сходятся с трансформерами) — позволила достичь при классификации изображений ImageNet точности top-1, равной 83,5%, что всего на 0,8 процентного пункта меньше, чем у лучшего варианта EfficientNet-B7 при примерно вдвое меньшем числе параметров[2818]. Вообще, 2021-й стал годом визуальных трансформеров — одно только перечисление новых вариантов трансформерных или гибридных архитектур для задач компьютерного зрения, созданных в этом году, заняло бы едва ли не целую страницу, поэтому вот лишь некоторые из них: CvT[2819], CaiT[2820], CeiT[2821], AutoFormer[2822], TNT[2823], DVT[2824], Mixer[2825], CoAtNet[2826], SwinV2[2827], MViT[2828], PeCo[2829], Pale Transformer[2830] и так далее.
Очередные рекорды точности решения задач в этой области держались считаные дни, на смену трансформерам в первых строчках таблиц лидеров на paperswithcode.com вновь приходили свёрточные архитектуры (на них, по мнению некоторых исследователей[2831], ещё рановато ставить крест), а им на смену — снова трансформеры или гибридные сети. При этом в ряде случаев достичь новой рекордной отметки помогали даже не изменения в архитектурах, а новые способы обучения или аугментации данных. На август 2023 г. первое место по top-1-точности классификации на датасете ImageNet занимает свёрточно-трансформерная архитектура BASIC-L[2832] (91,1%), обгоняя всего на 0,1% чисто трансформерную архитектуру CoCa (Contrastive Captioners, Контрастные подписыватели)[2833]. Однако к моменту выхода этой книги на верхних строчках таблицы рекордов окажутся уже, скорее всего, какие-то другие модели.
- Предыдущая
- 289/368
- Следующая

