В этом обзоре консультант по интернет-технологиям и мультимедийной журналистике Сергей Якупов рассматривает основные этапы развития искусственного интеллекта (ИИ). Сложно поверить, что началось всё не с появления ChatGPT в ноябре 2022 года. И даже не с компьютера Deep Blue, который обыграл Гарри Каспарова в шахматы.
Начало: 1950 – 2021
В 1950 году Алан Тьюринг опубликовал 22-страничную статью, которая называлась Computing Machinery and Intelligence. В статье он представил свой знаменитый тест Тьюринга и фактически запустил процесс создания искусственного интеллекта.
И уже через год – в 1951 – Марвин Мински и Дин Эдмондс представили первую нейронную сеть SNARC, которая использовала 3000 вакуумных трубок для симуляции работы 40 нейронов.
В 1952 году Артур Самуэль разработал программу для игры в шашки, которая умела обучаться.
В 1956 Джон МакКарти, Марвин Мински, Натаниэль Рочестер и Клод Шэннон ввели термин artificial intelligence – «искусственный интеллект».
В 1958 году Фрэнк Розенбладт предположил, что нейронные сети могут самообучаться на основе данных, и уже в этом же году Джон МакКарти разработал язык программирования Lisp, который стал обязательным инструментом для ИИ-разработчиков того времени.
Ну и в 1966 году Джозеф Вейзенбаум создал Eliza – первую программу, способную на коммуникацию с человеком.
В следующие несколько десятилетий тема искусственного интеллекта оставалась больше предметом научных изысканий, споров и даже упаднических настроений (например, в 1984 году Марвином Мински и Робертом Шанком был предложен термин AI-зима). Несмотря на этот пессимизм, в 1989 году один из нынешних разработчиков Llama-2 от Meta Ян Лекун представил со своими коллегами Иошуай Бенгио и Патриком Хаффнером конвуляционную (свёрточную) нейросеть. Её принципы используются сейчас, например, для технологии распознавания текста и изображений. Но в любом случае, в широкие массы тема ИИ не заходила. И не только потому что персональный компьютер в те времена был невероятной роскошью, но и потому, что у обычных пользователей не было особых задач, которые можно было бы решать с помощью искусственного интеллекта.
Позже появились Siri, Alexa. В 2016 году программа AlphaGo от DeepMind (Google) впервые обыграла человека в игре в го (об этом снят очень интересный документальный фильм) Но настоящий массовый прорыв последних десятилетий случился в 2021 году – с появлением GPT-систем.
GPT это аббревиатура для Generative Pre-training Transformer. Считается, что впервые модель предварительно обученных трансформеров, способных создавать что-то по запросу, была описана в статье Attention Is All You Need, которую написали в 2017 году несколько сотрудников Google. А уже через год сначала OpenAI представила свою первую GPT-1, а затем и сам Google выкатил BERT.
Современная история: 2022 – 2023
Ключевой момент новейшей истории ИИ случился осенью 2022 года. Компания OpenAI представляет ChatGPT – диалоговый сервис на базе самой продвинутой на тот период языковой модели (LLM – Large Language Model), разработанную на принципах трансформера, описанных в статье Attention Is All You Need. И этот сервис мгновенно стал самой большой технической и social media сенсацией в мире. GPT-3, которая лежит в основе ChatGPT, представили ещё в мае 2020, но тогда это был, скорее, технический запуск для специалистов и очень увлечённых людей. Ещё два года понадобилось на то, чтобы натренировать систему (по ссылке – 72-страничное описание GPT-3) на 175 млрд параметрах (фактах) и оформить в виде чат-сервиса. Для сравнения, самая первая модель GPT-1 тренировалась всего на 110 млн параметров.
И с этими тренировками, кстати, были связаны всевозможные курьёзы, когда первые пользователи (да и те, кто до сих пор пользуются пусть и обновлённой до версии 3.5 системой) получали нелепые ответы на свои вопросы.
На WebSummit 2022 года в Лиссабоне во время дискуссии по теме ИИ между знаменитым лингвистом Ноамом Чомски и учёным Гари Маркусом промелькнула характеристика таких систем, которая, кажется, очень точно описала и плюсы, и минусы GPT-3 – «T9 на стероидах».
Модель трансформер – это фактически поиск наиболее правильных последовательностей (слов, звуков, пикселей), это не придумывание чего-то нового, это строительство, создание понятных и правильных цепочек, но она совершенно не задумывалась о фактической точности этой цепочки. Поэтому детище OpenAI сразу завоевало сердца пользователей соцсетей – оно умело красиво складывать слова. За это нужно поблагодарить новостные медиа, книги и даже Википедию – именно эти источники информации легли в основу тренировочных дата-сетов OpenAI.
Что было потом? Дальше случился один момент, который определил положение вещей в индустрии искусственного интеллекта на долгие годы – ИИ перестал быть игрушкой для гиков и инструментом учёных. Наконец, искусственный интеллект вышел в народ, теперь им могли пользоваться все желающие. О нём заговорили буквально все новостные медиа. Началась настоящая ИИ-мания, что породило три важнейшие вещи:
Первое. Промпт-инжиниринг, наука (искусство?) общаться с языковыми моделями. Первые пользователи просто задавали вопросы GPT и получали ответы разной степени достоверности. И сразу же нашлись те, кто, как им показалось, раскусил алгоритм, вывел формулы правильных запросов (промптов). Сформировался рынок промпт-инжиниринга.
Второе. После открытия API (программного интерфейса взаимодействия) любой желающий мог начать делать собственные приложения на основе ИИ. И теперь если в вашем стартапе нет букв ИИ, то вы вполне можете считать себя неудачником на обочине цивилизации. Как минимум, так думают многие инвесторы и предприниматели.
Третье. Случились изменения на рынке и с другой стороны – появились сервисы, которые помогают работать с языковыми моделями. Например, Hugging Face – платформа, позволяющая тренировать собственные модели. Но что важнее всего – на рынок вышли другие языковые модели на основе трансформеров.
2023 год стал настоящим бенефисом разработчиков LLM:
- OpenAI представила GPT-4 и превратил свои разработки в, на мой взгляд, лучший маркетинговый продукт на рынке. Бесплатная версия для обычных пользователей, платная версия для продвинутых, мощные API для разработчиков. Приложения, веб-версии… Всё это стало возможным в том числе благодаря сотрудничеству с Microsoft, которая в начале 2023 года вложила в OpenAI порядка $10 млрд.
- Компания Anthropic выпустила главного на начало 2023 года конкурента GPT от OpenAI – Claude.ai. Забавный факт: основатель Anthropic – член совета директоров OpenAI.
- Google, наконец, представил собственную разработку – BARD, а в самом конце 2023 и приложение Gemini, которое буквально взорвало индустрию качеством распознавания изображений.
- Meta (Facebook, Instagram) вывела на рынок Llama-2 первую LLM с открытым кодом и запускает цепную реакцию появления таких моделей, что ставит под некоторые сомнения рынок проприетарных («закрытых») моделей типа GPT-4 и Claude. Теперь каждый может скачать свою версию и настроить её в соответствии со своими интересами. И этот тренд подхватили, например, в xAI и выпустили Grok (привет писателю-фантасту Роберту Хайнлайну), а в ОАЭ разработали Falcons. И так далее.
Кажется, последний тренд на LLM с открытым кодом стал главной (но не самой очевидной!) характеристикой рынка в 2023 году вместе с огромным количеством приложений и сервисов, имеющим приставку ИИ.
В марте 2023 года Билл Гейтс написал в своём блоге про ИИ-революцию, поставив технологию искусственного интеллекта на одну ступень с изобретением интернета и мобильных телефонов. И по его мнению ИИ в том виде, что есть сейчас, имеет вполне себе чёткое будущее – персональных ассистентов, которые помогут нам быть быстрее, эффективнее.
Журналист, редактор, копирайтер, программист, аналитик – вот только малая доля тех профессий, которые приходят в голову, когда думаешь о том, чью работу ИИ может сделать эффективнее. Вопрос лишь в правильном приложении технологии, в понимании, что она может делать хорошо, а что – просто красиво.
2024 – …
В 2023 году произошли несколько важнейших событий на рынке ИИ, которые потенциально смогут поменять правила игры в индустрии на многие годы.
Осенью 2023 года совет директоров OpenAI уволил (как потом оказалось – временно) сооснователя компании Сэма Альтмана. Формально причина была в том, что Альтман «не был полностью откровенен и честен» с советом. Но как стало ясно позднее, фактически это увольнение было противостоянием двух парадигм:
- Одни хотели продолжать бурное развитие искусственного интеллекта, добиваясь прорывов в области, где ИИ научится принимать самостоятельные решения (и по слухам, кое-что у OpenAI уже получилось). Среди них был Сэм Альтман.
- Другие хотели притормозить это, чтобы «как бы чего не вышло». Среди них, например, уже упомянутый Гари Маркус и даже Илон Маск.
И эту дилемму придётся решать. Пока что в OpenAI пришли к некоторому компромиссу, но долго он очевидно не продержится. Джинна нельзя обратно запереть в бутылку.
Второй важнейший момент развития ИИ – проблема копирайта. Как мы уже говорили, обучение языковых моделей строится на парсинге (сбора и систематизации – прим. «Соли») огромного количества данных: от книг до новостных медиа. И вот как раз новостные медиа увидели в этом возможность заработать, углядев в таком подходе нарушение авторских прав. Сначала некоторые крупные медиа запретили ботам разработчиков языковых моделей читать их сайты, а затем New York Times и вовсе подала на OpenAI в суд, требуя «миллирады долларов» в качестве возмещения. При этом, у тех, кто поддерживает позицию OpenAI, есть свои аргументы: все материалы, которые использовала компания для тренировки GPT, находятся в свободном доступе и служат для информирования общества, GPT просто переупаковала этот контент для тех же целей.
Любое решение суда в этом деле очень серьёзно повлияет на рынок. Удовлетворение иска не только обогатит New York Times, но и фактически вычистит рынок от тех разработчиков LLM, которые не смогут платить новостным медиа за использование их контента. Ну а если суд всё же откажет в возмещении «ущерба», то просто продолжится тренд на блокировку доступа к контенту новостных медиа для разработчиков LLM.
Чем это грозит? Скорее всего, тем, что начнёт сбываться прогноз Билла Гейтса о будущем ИИ – персональные помощники, которые будут натренированы на узкоспециализированных и относительно небольших наборах данных, чтобы решать наши личные и профессиональные задачи. Так что фактически LLM (Large Language Model) превратятся в SLM (Small Language Model). И это, кстати, вполне может помочь решить дилемму про степень самостоятельности ИИ в принятии решений.
И, пожалуй, третий важный тренд, который мы все сможем наблюдать в 2024 году – своеобразное очищение рынка приложений и сервисов. В 2023 году уровень развития LLM обещал большие возможности разработчикам, которые делали сервисы по распознаванию изображений, работе с файлам, написанию кода, анализу данных и т.п. очевидных сценариев использования натренированных моделей, упаковывая их в оболочки для смартфонов и десктопных компьютеров. Но буквально за год крупнейшие (и умнейшие!) модели научились это делать самостоятельно.
Поэтому есть ощущение, что рынку приложений придётся или очень убедительно объяснять, чем их интерфейс лучше родного интерфейса ChatGPT, или переключаться на что-то другое – на комплексный подход в решении сложных задач, а не просто условное распознавание речи или изображений. Например, на тренировку собственных «нишевых» моделей для решения нишевых же задач пользователей.
В общем, будет крайне интересно. И сложно не согласиться с Биллом Гейтсом – ИИ – это, пожалуй, первая по-настоящему революционная технология за долгие-долгие годы. Как нас изменили интернет и смартфона, а потом и соцсети, так всё это изменит технология искусственного интеллекта.
***
А если у вас есть идеи на стыке медиа и технологий (возможно даже с применением искусственного интеллекта), приглашаем принять участие в хакатоне и акселераторе беларусских медиа LaunchMe 2024. Подробности и регистрация – на сайте проекта.