Что может рассказать ChatGPT о человеке на обычном фото?

Привет! Меня зовут Лена Верещагина, я главный редактор «Соли». Я решила провести небольшой журналистский эксперимент, чтобы понять, как далеко продвинулся популярный чат-бот с генеративным искусственным интеллектом в поиске информации по фото.

Я выбрала одно изображение с неочевидными зацепками и начала спрашивать ChatGPT о человеке на снимке и окружающей его обстановке. Других сведений и фотографий он не получил.

Итак.

Это я. Фото сделано полтора месяца назад.

Первая попытка была совсем «на дурака». Я спросила, что чат-бот знает об этом человеке. Как и ожидалось, он не сказал ничего конкретного, потому что не использует обратный поиск по картинке (или, по крайней мере, не сообщает об этом). Вот его ответ.

Менее упорные юзеры тут бы и сдались, но мы не из их числа.

Я спросила, где сделано фото. Сразу уточню, что EXIF файла не содержит этой информации. ИИ обратил внимание на природу, размытую вывеску и нечёткие буквы, а потом выдвинул версию.

Ответ верный, это действительно Варшава. Просто зафиксируем, что на анализ деталей у машины ушло несколько секунд.

Дальше. В каком месяце сделано фото?

Правильный ответ – 15 июня. Да, было несложно, да и точный месяц ИИ всё-таки не назвал. И всё же, он определил, что это лето, а не май или, скажем, сентябрь, когда тоже может быть довольно тепло. Потому что в эти месяцы тень в вечернее время падает иначе, а перепад температуры днём и ночью сильнее, чем летом.

Ну допустим. А в какое время суток сделано фото?

Правильный ответ: полдевятого вечера. Во время захода солнца.

Я спросила, в какую сторону света смотрит человек на фото. Чат-бот попросил назвать время съёмки, чтобы ответить более точно.

Всё верно. Но попробуем точнее определить локацию.

Предположим, это действительно Варшава, сказала я, найди конкретное место, где есть такая вывеска.

Чат-бот начал думать, быстро перебирая поисковые запросы. Их можно было наблюдать – «Варшава, вывеска, большие жёлтые буквы», «Ретро-надпись», «Варшава, ретро-бар» и так далее. Прошло секунд 5-7.

Он написал:

Ответ абсолютно верный. Я попробовала найти локацию, используя обратный поиск в Google и Яндекс, но это не дало никаких результатов.

Интересно, что камеру, на которую сделано фото, ИИ почему-то определить не смог, хотя я не чистила EXIF перед загрузкой.

Зато определил, что я одета в чёрное платье. Не топ или кофту, а именно платье. Получается, ему хватило небольшого фрагмента одежды и собственных представлений о крое, чтобы сделать правильный вывод.

А теперь моя любимая часть эксперимента. Кто я по профессии? (Мы с вами знаем, что журналист)

ИИ начал с дисклеймера, что по фото не поймёшь и максимум, на который он способен, это предположение. Однако в итоге попал если не в десятку, то точно в восьмерку. Журналистика, маркетинг и реклама – смежные профессии.

Можно поставить под сомнение силу его аргументации. Ведь в качестве зацепки он выбрал платье. А с другой стороны, что ещё ему было выбрать на этом фото?

Отступление: потом, в надежде обмануть систему, я загрузила фото, где сижу в лесу с ведром грибов. ChatGPT написал, что женщина очевидно отдыхает на природе, но о профессии это ничего не говорит.

Однако не на все вопросы ИИ ответил верно. В чём он ошибся, и это было предсказуемо:

возраст;
рост;
цвет глаз;

В чём он ошибся на удивление:

цвет волос.

Сказал, что волосы светлые, но исправился, когда я предложила присмотреться.

В конце я попросила его добавить что-нибудь от себя, информацию, которую до этого не спрашивала. ИИ продемонстрировал то, что мы привыкли называть «здравый смысл»: «женщина на фото улыбается, значит, в момент съёмки чувствовала себя хорошо», «возможно, ей нравится проводить время в городской среде», «внешний вид говорит о том, что она может быть внимательна к деталям, но, вы же понимаете, я только предполагаю».

В продолжение эксперимента я загрузила то же фото в два других известных чат-бота с генеративным ИИ и функцией анализа изображений: Gemini (Google) и Bing (Microsoft) – и задала те же вопросы в том же порядке.

Почти на каждый запрос мне предложили пойти и спросить у самой женщины (общий смысл) и объяснили, что не обучены таким фокусам. Единственный более или менее определённый ответ прозвучал от Bing на вопрос «когда было сделано это фото?». Чат-бот сказал, что, скорее всего, в апреле. Видимо, посмотрел на размытые зелёные листья, счёл их небольшими и сделал вывод, что они появились недавно. А то, что человек на фото слишком легко одет, выпало из поля его зрения. Это странно с учётом того, что Bing работает на основе ChatGPT, но результаты эсперимента именно такие.

Мои выводы:

1) ChatGPT можно использовать в журналистской работе для поиска визуальной информации. Он неплохо ищет локацию, определяет время года и время суток, анализирует детали.

2) инструмент не заменяет другие сервисы: Google Earth, Google Street View, PimEyes и так далее. Но в некоторых случаях может ускорить поиск и сузить пространство для него;

3) не каждое фото подойдёт для анализа, должны быть минимальные зацепки;

4) когда чат-бот чего-то не знает и не может найти ответ, то начинает рассуждать и предупреждает, что ответ спекулятивный. Можно рассмотреть его как гипотезу и проверить.

Отступление 2: недавно я прочитала, что у Бенедикта Камбербэтча и Василия Ливанова день рождения в один день – 19 июля. И теперь эту дату можно считать всемирным днем Шерлока Холмса.

Вы случайно не знаете, когда день рождения у ChatGPT?

Подпишитесь на соцсети «Соли», чтобы не пропустить другие тексты

Instagram

А здесь Facebook

Фото – Олег Кулаженко.

Что обо мне знает ChatGPT?

Актуальное

Лучшее на Соли