Лондонская школа экономики и политических наук (LSE) провела международный опрос среди медийщиков, чтобы узнать, как они используют технологии генеративного искусственного интеллекта и как, по их мнению, те повлияют на будущее журналистики. Мы перевели и публикуем самые интересные моменты из отчёта исследователей. Оригинальный текст на английском вы можете прочесть здесь.
Отчёт основывается на опросе 105 новостных и медиа- организаций из 46 стран, а также на интервью и беседах на журналистских конференциях. Опрос и интервью проводились с апреля по июль 2023 года.
Редакции применяют технологии ИИ на всех этапах создания контента: для сбора информации, производства новостей и их распространения.
Эти три области часто пересекаются, учитывая природу современной «сетевой» или «гибридной» журналистики. К примеру, медиа используют чат-боты для фактчекинга в производстве новостей, чтобы подтвердить или опровергнуть какие-либо утверждения. Вместе с тем полученные таким способом данные могут указать на тенденции мисинформации (намеренного распространения лживых сведений – прим. «Соли») и вдохновить на статью, а это уже из области сбора.
Как ИИ применяют для сбора информации
Системы искусственного интеллекта помогают редакциям собирать материал из разных источников и оценивать интересы аудитории. Опрос показал, что почти три четверти медиаорганизаций используют инструменты ИИ для сбора информации по двум основным направлениям.
1. Распознавание текста (optical character recognition), преобразование речи в текст, извлечение текста из картинок
Инструменты на базе ИИ для преобразования речи в текст и автоматического перевода, такие как Colibri.ai, SpeechText.ai, Otter.ai и Whisper, упрощают производственный процесс, бесценны в условиях жёстких дедлайнов и позволяют редакциям работать с контентом на разных языках. Но пока у подобных инструментов есть языковые ограничения и им сложно расшифровывать речь с акцентом.
2. Обнаружение трендов и новостей
Журналисты используют системы ИИ, чтобы раскрыть проблемы, интересующие аудитории в разных регионах, и понять, что думают люди по тем или иным вопросам. Несколько респондентов упомянули, что используют Google Trends, веб-скрапинг и сервисы интеллектуального анализа данных, такие как Dataminr и Rapidminer, чтобы обнаружить популярные темы и интересные новости, собрать данные о какой-либо истории из разных источников.
Одна из редакций с помощью CrowdTangle находит в соцсетях вирусные или обсуждаемые посты.
Долгую и нудную работу вроде классификации данных или упорядочивания контента редакции тоже поручают ИИ. Генерация тегов, сервисы уведомлений, чат-боты и языковые модели помогают автоматизировать ответы и извлекать данные.
В основном редакции используют сторонние программы для сбора информации. Некоторые разрабатывают собственные встроенные инструменты автоматизации вроде веб-скраперов или поисковых роботов, чтобы удовлетворить свои особые потребности.
У медиа есть свой внутренний инструмент, который включает автоматический тегировщик статей на новостных сайтах и постов в соцсетях. Тегировщик отмечает темы и ключевые слова, собирает определённые дискурсы и классифицирует их по темам. Кроме того, эта редакция использует нейросети для сентимент-анализа данных о беженцах с помощью Google Cloud API и собирает данные о протестных дискурсах, используя другие API для аналитики вроде Lebanon protests platform.
Иногда медиаорганизации объединяют усилия. Так, одна из редакций вместе с командой OCCRP (Центр по исследованию коррупции и организованной преступности) разработала инструмент, который «арабизирует» систему OCCRP путём извлечения сотен тысяч страниц в базу данных ARIJ (Арабские репортеры за журналистские расследования) с помощью сервисов Google Optical Character Recognition (OCR). Эта же редакция создаёт собственного поискового робота, который будет собирать данные из конкретных ресурсов, после эти данные очистят исследователи и журналисты и те попадут в домен этого медиа.
Как ИИ помогает создавать контент
Около 90% респондентов заявили, что применяют технологии ИИ в производстве новостей и делают это разными способами.
Приложения обработки естественного языка (NLP) помогают журналистам проверять факты: находят утверждения и сопоставляют их с ранее проверенными. Для верификации применяется и обратный поиск изображений.
Редакции используют генеративный ИИ вроде ChatGPT, чтобы создавать выжимки, заголовки, визуальное повествование и таргетированные новостные рассылки.
Так, у одной редакции в CMS есть механизм тегирования на базе Watson. А ещё на основе ChatGPT она разрабатывает инструмент, который предлагал бы заголовки.
Кроме того, инструменты генеративного ИИ помогают журналистам писать код и оценивать источники данных. Один из респондентов с помощью ChatGPT сделал несколько игр и квизов, хоть ИИ написал код не целиком.
Технологии искусственного интеллекта, такие как Grammarly и инструменты проверки орфографии, используют для редактирования, корректуры и улучшения качества текстового контента.
Как ИИ помогает распространять контент
Тут диапазон вариантов использования самый широкий, хотя в распространении новостей ИИ применяют чуть меньше, чем в производстве, – около 80% респондентов. Цель – расширить охват аудитории и повысить вовлечённость. Интересно, что 20% назвали распространение новостей одной из областей, на которые технологии ИИ влияют больше всего в редакциях.
Респонденты рассказали, как используют системы персонализации и рекомендаций, чтобы более точно соотнести контент с заинтересованной аудиторией. Или же наоборот, адаптировать контент к конкретному носителю или аудитории.
Кто-то применяет для эпизодов подкаста систему рекомендаций с механизмом EBU Peach.
Чтобы оптимизировать контент для разных носителей, редакции используют технологию преобразования речи в текст и наоборот. Например, одна из редакций с помощью голосовых ботов озвучивает свои текстовые истории.
Несколько респондентов применяли инструменты дистрибуции в соцсетях на базе ИИ, такие как Echobox и SocialFlow, чтобы оптимизировать планирование контента в соцсетях.
Чат-боты помогают медиа обеспечить аудитории более персонализированный опыт и увеличить скорость отклика. Например, чат-бот WhatsApp сразу присылает пользователям ссылку на фактчек, если они отправили редакции информацию, которую она уже проверила. А ещё чат-бот ежедневно присылает читателям этого издания аудио- и текстовые выжимки основных новостей.
Создавать релевантные и интересные читателям новости кому-то помогает целый набор программ: Ubersuggest показывает, какие ключевые слова чаще других ищут в интернете, Google Discover раскрывает, какие истории и ключевые слова сейчас в тренде, CrowdTangle находит наиболее эффективные посты в соцсетях.
Топ-10 инструментов ИИ, которыми пользуются медиа
1. BloombergGPT. Крупная языковая модель, обученная на финансовых данных. Поддерживает различные задачи NLP вроде обобщения финансовых документов, создания отчётов и анализа рыночных тенденций.
2. The Washington Post’s Heliograf. Использует структурированные данные и автоматизирует создание коротких новостей, таких как результаты спортивных соревнований и отчёты о доходах. Это позволяет журналистам сосредоточиться на более детальном освещении.
3. The Times of London’s JAMES. Система управления контентом на базе ИИ. Использует алгоритмы машинного обучения, чтобы анализировать поведение и интересы пользователей и предоставлять персонализированный новостной контент.
4. Czech Radio’s Digital Writer. Инструмент на базе ИИ, который генерирует новостные статьи на основе структурированных данных.
5. Reuters’s Lynx Insight. Использует алгоритмы ИИ для анализа огромных наборов данных. Предоставляет ценную информацию для журналистских расследований.
6. Washington Post’s Arc XP. Набор инструментов для управления контентом, его публикации и вовлечения аудитории.
7. Newtral’s Claim Hunter. Прослушивает и расшифровывает аудиоконтент, при этом находит утверждения, требующие проверки.
8. The Reuters News Tracer. Использует алгоритмы машинного обучения, чтобы быстро обнаруживать последние новости и проверять их на достоверность. Анализирует большие объёмы данных, посты в соцсетях и сообщения очевидцев, помогая журналистам делать новостные апдейты в реальном времени.
9. Newtral’s automated fact-checking tool. Использует техники NLP и машинного обучения, чтобы выявлять потенциально ложную или вводящую в заблуждение информацию.
10. Duke Reporter’s Lab’s FactStream. Автоматизированная система проверки фактов. Находит ложные утверждения в живых выступлениях, на дебатах и публичных мероприятиях, сравнивая их с уже проверенными высказываниями.
Перевод и адаптация текста – Рина Виж.