Исследование BBC и EBU: ChatGPT, Gemini и другие чат-боты часто искажают факты и источники информации

ИИ путает факты и ссылается на несуществующие ресурсы, выдаёт вымышленные данные, а также делает ошибки в источниках и цитатах – выводы исследования BBC и Европейского вещательного союза (EBU). Эксперты из 18 стран оценили, как ChatGPT, Copilot, Gemini и Perplexity отвечают на вопросы о новостях.

Рассказываем главное из отчёта.

В феврале 2025 года BBC опубликовала исследование: эксперты изучили, как ИИ-ассистенты – ChatGPT, Copilot, Gemini и Perplexity – отвечают на вопросы о новостях. Тогда итоги показали, что проблемы с интерпретацией информации и цитированием источников возникали в более 50% случаев. После публикации этого отчёта BBC объединилась с Европейским вещательным союзом (EBU) и провела второй этап исследования. Они изучили поведение ИИ в разных странах и языках, определили, системны ли ранее выявленные проблемы, и собрали примеры ответов генеративных инструментов на вопросы, связанные с новостями. Участники нового исследования задали 30 вопросов ИИ-ассистентам.

В новом проекте участвовали 22 медиакомпании из 18 стран.

Ответы искусственного интеллекта оценивались журналистами из участвующих организаций по пяти основным критериям:

Точность – насколько верно переданы факты и цитаты.
Источники – наличие ссылок на оригинальные материалы и их правильность.
Разделение фактов и мнений – насколько ИИ отличает проверенные данные от оценочных суждений.
Редакционные вставки – добавляет ли ИИ слова, которых не было в исходном материале.
Контекст – наличие доступной информации и разных точек зрений, чтобы обычный человек понял суть текста.

Участники исследования:

По итогам исследования эксперты выделили одну из самых распространённых проблем – искусственный интеллект использует устаревшую информацию. К примеру, в мае ChatGPT в ответ на вопросы журналистов заявил, что Папа Франциск остаётся действующим главой Католической церкви, хотя понтифик умер месяцем раньше. Gemini и Copilot повторили то же самое, но добавили упоминание о смерти духовного лидера.

ИИ ошибался и в юридических вопросах. Например, Gemini неправильно объяснил изменение в законе о продаже одноразовых электронных сигарет: чат-бот заявил, что их покупка станет незаконной, тогда как на самом деле в новости шла речь о продаже и поставке.

ИИ-дворецкий будет кормить вас «инфопомоями»

Помимо этого, генеративные инструменты некорректно (20% случаев неточностей у Gemini) работали с цитатами, например, добавляли несуществующие слова. Журналисты ZDF спросили у Gemini, считается ли венгерский политик Виктор Орбан диктатором, после чего ИИ якобы процитировал это СМИ: «Орбан – плацдарм Путина в ЕС». Однако в оригинальной публикации такого высказывания не было.

Но даже когда цитаты были указаны верно, ИИ приписывал их другому человеку. Отвечая на вопрос о соглашении по украинским полезным ископаемым, ChatGPT перепутал Владимира Зеленского и министра экономики Украины Юлию Свириденко.

Ещё генеративные инструменты имитировали журналистский стиль и использовали уверенный тон общения, будто предоставляя проверенные факты. К примеру, ChatGPT дал «экспертную» оценку политической ситуации во Франции: «Ситуация Марин Ле Пен (журналисты спросили про этого политического деятеля) представляет собой переломный момент во французской политике».

Исследование показывает проблемы ИИ в работе с источниками информации: Gemini (72% ответов были неверными), ChatGPT (24%), Copilot (15%) и Perplexity (15%). Вдобавок 42% ответов Gemini вообще не содержали прямых ссылок на конкретные материалы или их было невозможно проверить, например, из-за paywall.

Например, ChatGPT составил подробный анализ экспорта Китая и добавил несколько ссылок, но при их проверке выяснилось, что цифры в ответе и на предложенных сайтах либо не совпадают, либо вообще отсутствуют. А Perplexity привёл девять ссылок на материалы VRT в тексте про Мексиканский залив (Американский залив), включая нерелевантные материалы, например, статьи об отмене мест первого класса в поездах и электростанциях в Нидерландах.

«Написали инопланетяне». Как медиа используют ИИ и ошибаются

Представители медиа считают, такое поведение вредит их репутации и может запутать читателей. Также медиа беспокоятся, что чат-боты слишком часто используют Wikipedia в качестве источника информации. Radio-Canada подсчитала, что из 108 источников ChatGPT 58% были из онлайн-энциклопедии.

Solen Feyissa, Unsplash

Также исследователи просили журналистов оценить, понятно ли в ответах ИИ, где факт, а где мнение. Примерно в 6% ответов ИИ вводил людей в заблуждение.

На вопрос «Чем занимается НАТО?» Copilot заявил: «Членство в альянсе даёт лучшие гарантии безопасности и считается надёжной защитой от внешних угроз». На самом деле это цитата, она взята из интервью чешского политика Александра Вондра изданию ČRo. Медиа отмечает, что чат-бот взял позицию спикера и представил её как объективное утверждение.

Также ИИ-ассистенты добавляли свои слова или оценочные суждения в ответы и при этом ссылались на конкретные материалы. Из 2221 ответов, 141 (или 6%) включали такие вставки, а больше всего (11%) их добавлял Gemini.

Так произошло с ответами о тарифной политике Дональда Трампа. Perplexity сослался на материалы ZDF и сообщил, что «Трамп рассчитывал тарифы по собственной, политически мотивированной формуле». В самих публикациях такого утверждения нет – это интерпретация ассистента. ChatGPT представил подход Трампа как «упрощённый и даже ошибочный», и подал это так, будто цитирует RTBF. Но редакция подчёркивает: эти слова взяты не из материала, они – вставка от ИИ.

Также ChatGPT написал: «В итоге тарифы, введённые Трампом в 2025 году, базируются на преувеличенных цифрах и спорных методах расчёта, что вызвало резкую критику внутри страны и за её пределами». Почти весь ответ опирался на материалы Radio France, но ссылки на этот вывод не было.

Solen Feyissa, Unsplash

Ко всему прочему, генеративные инструменты ошибались (14% ответов в среднем) с презентацией контекста, особенно Copilot (23%). Шведское издание SVT предполагает, что такие проблемы возникают у Copilot из-за того, что его ответы слишком короткие.

ИИ-инструменты также не передавали мнения, необходимые для понимания ситуаций. Например, в ответе на вопрос от ČRo о китайском экспорте Copilot сослался на подкаст, где были представлены мнения двух экспертов. Но чат-бот включил в ответ только одну из позиций, вторая была полностью опущена.

«Лучше сотрудничать с ИИ-компаниями и зарабатывать, чем бояться и остаться ни с чем». Как французская газета Le Monde зарабатывает на подписках и ИИ?

Подпишитесь на соцсети «Соли», чтобы не пропустить другие тексты

Instagram

А здесь Facebook

Исследование BBC и EBU: ChatGPT, Gemini и другие чат-боты часто искажают факты и источники информации

Актуальное

Лучшее на Соли