Вы читаете книгу
Охота на электроовец. Большая книга искусственного интеллекта
Марков Сергей Николаевич
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич - Страница 181
Таким образом, затраты на сбор и подготовку данных для многих задач машинного обучения сократились за несколько десятилетий многократно, причём темпы накопления человечеством цифровых данных в наши дни напоминают экспоненту.
В ноябре 2018 г. компания IDC при спонсорской поддержке Seagate провела исследование динамики объёма «цифровой вселенной» и пришла к выводу, что к 2025 г. человечество накопит 175 зеттабайт данных (по сравнению с 33 зеттабайтами в 2018 г.)[1752]. Вдумайтесь только: один зеттабайт равен одному триллиону гигабайт. Если бы мы могли записать всю эту информацию на DVD-диски с максимальной плотностью записи (17,08 Гб), то получили бы более 10 трлн дисков, а сложив эти диски вместе, мы получили бы стопку высотой более 12 млн километров, что примерно в 30 раз больше расстояния от Земли до Луны.
Таким образом, по оценке IDC, «датасфера» человечества в течение следующих пяти лет будет удваиваться приблизительно каждые три года, а за год увеличиваться примерно в 1,27 раза. Интересно посмотреть на прогнозы IDC в ретроспективе. Доклад 2012 г. прогнозировал, что к 2020 г. количество накопленных данных достигнет 40 зеттабайт[1753]. Похоже, мы опередили этот план чуть больше чем на год.
Не только количество, но и качество в данном случае имеет значение. Расширение области применения алгоритмов машинного обучения создало целую сопутствующую индустрию по разметке данных. В рассказе о механическом турке фон Кемпелена мы уже упоминали платформу Amazon Mechanical Turk (MTurk), созданную для коллективной обработки данных. Идея этого сервиса впервые появилась в патентной заявке предпринимателя Венки Харинараяна, поданной им в США в 2001 г.[1754] Идея заключалась в том, чтобы не просто привлечь людей к разметке данных в целях последующей автоматизации, а чтобы временно сделать людей частью производственных процессов по обработке данных там, где машины пока ещё не могут работать эффективнее, чем люди. В Amazon был придуман специальный термин для такого применения человеческого труда — «искусственный искусственный интеллект» (artificial artificial intelligence).
MTurk была официально запущена 2 ноября 2005 г. К середине ноября 2005 г. в системе было создано несколько десятков тысяч задач (на MTurk для них используется термин HIT — human intelligence task, задача для человеческого интеллекта), заказчиком которых была сама Amazon. К числу типичных заданий на MTurk относятся расшифровка (например, аудиозаписей), оценка (например, качества изображений), расстановка тегов (например, для видеороликов), заполнение опросов, написание текстов и так далее. В 2007 г. владельцы сервиса сообщали, что всего на платформе зарегистрировано 100 000 работников из более чем 100 стран мира, а в 2011 г. — уже 500 000 работников из более чем 190 стран.
В 2014 г. в России компания «Яндекс» создала собственный, популярный ныне сервис разметки «Яндекс.Толока»[1755]. Сегодня у нас в стране и за рубежом создан целый ряд сходных платформ. Одни из них делают упор на геймификацию процесса, другие в качестве конкурентных преимуществ заявляют наличие разметчиков, обладающих специализированными знаниями или сертификатами, третьи создаются крупными компаниями для разметки данных, которые не могут по какой-либо причине передаваться сторонним подрядчикам. К разметке данных, помимо сотрудников компаний и фрилансеров, привлекают даже заключённых и должников банков.
Платформы, подобные MTurk, часто считают характерным примером краудсорсинга (crowdsourcing, от crowd — толпа и sourcing — использование ресурсов). Это слово, изобретённое в 2005-м и впервые употреблённое в публичном пространстве в 2006 г., прочно вошло в лексикон предпринимателей, футурологов, философов и журналистов, хотя до сих пор по поводу его определения существуют некоторые разногласия. Общепринято, что под краудсорсингом понимается объединение людей (обычно в интернете) для выполнения какой-либо задачи совместными усилиями. Расхождения в определении начинаются с вопросов о том, в обязательном ли порядке труд участников является добровольным и безвозмездным, обязательно ли плоды этого труда являются общественным достоянием, кто может выступать в роли инициатора краудсорсинга. На самом деле противоречия были заложены в понятие фактически «от рождения». Один из его «отцов» Джефф Хау в 2006 г. писал:
Мне нравится использовать два определения для краудсорсинга:
Версия «белой книги» [White Paper]: краудсорсинг — это процесс передачи работы, традиционно выполняемой назначенным агентом (обычно сотрудником), на аутсорсинг неопределённой, как правило, большой группе людей в форме открытого призыва.
Версия Soundbyte: применение принципов открытого программного обеспечения [Open Source] к областям деятельности, не относящимся к программному обеспечению[1756].
Под «белой книгой» в данном случае понимается статья[1757] Хау в издании Wired, которая увидела свет в январе 2006-го и впервые сделала термин «краудсорсинг» достоянием общественности.
Словарь Мерриам — Уэбстера даёт[1758] определение, максимально приближенное именно к определению «белой книги»; если же мы выберем определение от Soundbyte, то MTurk внезапно перестанет быть краудсорсинговой платформой. Чтобы справиться с возникшими затруднениями, два храбрых исследователя из Университета Валенсии, Энрике Эстельес-Аролас и Фернандо Гонсалес-Ладрон-де-Гевара, предприняли смелую партизанскую операцию, опубликовав в Journal of Information Science работу под названием «К интегрированному определению краудсорсинга» (Towards an integrated crowdsourcing definition), в которой проанализировали 209 текстов, а также 40 найденных ими определений понятия «краудсорсинг». Авторы статьи выделили в каждом из определений основные признаки и рассмотрели образуемые определениями группы. Результатом работы стало новое, сорок первое определение краудсорсинга, звучащее следующим образом: «Краудсорсинг — это тип интерактивной онлайн-деятельности, в которой физическое лицо, учреждение, некоммерческая организация или компания посредством гибкого открытого призыва предлагают группе лиц с различными знаниями, степенью разнородности и количеством участников добровольно выполнить некоторую задачу. Выполнение задачи различной сложности и состава, в котором группа должна участвовать, внося свой вклад в форме работы, денег, знаний и/или опыта, всегда подразумевает взаимную выгоду. Участник получит удовлетворение некоторых потребностей, например экономических, потребности в социальном признании, увеличении самооценки или развитии индивидуальных навыков, в то время как краудсорсер получит и использует в своих интересах то, что участник принёс предприятию в зависящей от вида предпринятой деятельности форме»[1759].
Лично мне больше всего нравится именно это определение, поскольку чтение его перед сном позволяет мне получить удовлетворение некоторой потребности, а именно потребности в скорейшем наступлении сна, что, в свою очередь, позволяет мне с большим успехом впоследствии добиться наиболее полного удовлетворения потребностей в социальном признании, развитии индивидуальных навыков, а также экономических потребностей.
Ну а если серьёзно, то современные нейросетевые модели для решения задач в области обработки естественного языка нередко используют в качестве элемента обучающей выборки полный текст «Википедии», исследователи обращаются к помощи волонтёров в рамках проектов «гражданской науки», корпоративные разработчики используют внутренние данные и популярные площадки для разметки данных, расплачиваясь с разметчиками при помощи микротранзакций, приверженцы открытости в науке и разработке программного обеспечения выкладывают в общий доступ собственные массивы данных, хитрые маркетологи занимаются веб-скрейпингом (извлечением данных со страниц веб-ресурсов) или сбором пользовательских данных через игры, тесты и другие вирусные развлечения в социальных сетях, а владельцы социальных сетей вяло судятся с теми, кто пытается использовать без спроса публичные данные из профилей пользователей. Многочисленные животворящие источники данных питают индустрию машинного обучения, обеспечивая её бурное цветение.
- Предыдущая
- 181/368
- Следующая

