Заменит ли искусственный интеллект экономистов

29.05.2023

Похоже, что пока нет. По крайней мере, экзамен по экономике в РЭШ популярный чат-бот ChatGPT не сдал. Проведенный GURU эксперимент показал:

 - на что способен чат;

 - как он допускает элементарные ошибки;

 - решает задачи;

 - и обманывает, руководствуясь советом одного из героев Шекспира: «На удочку насаживайте ложь и подцепляйте правду на приманку».

 

Этот текст – краткое описание эксперимента, более подробное здесь

 

Екатерина Сивякова 

 

Как мы провели эксперимент 

В нашу «экзаменационную комиссию» вошли профессор РЭШ Ольга Кузьмина, журналистка GURU Екатерина Сивякова и главный редактор GURU Филипп Стеркин. Мы составили список заданий на английском языке из четырех частей, чтобы проверить, сможет ли ChatGPT проанализировать экономические проблемы и найти пробелы в научном знании, решить несколько задач, дать экономические прогнозы и психологические советы.

Во время двухчасового эксперимента мы предлагали искусственному интеллекту примерить разные роли: профессора экономики, исследователя, экономического журналиста, тьютора. И просили давать ясные и точные ответы, избегать лишних подробностей и не использовать ложную информацию (спойлер: он нам все же солгал). Качество ответов на вопросы об экономике оценивала Ольга Кузьмина. 

Следует отметить, что несколько раз во время эксперимента мы начинали новую беседу из-за технических неполадок, причины которых мы не знаем (например, они могли быть вызваны проблемами со связью). Это могло отразиться на том, как искусственный интеллект определял контекст беседы. Несколько раз сервис зависал и сообщал о технической ошибке, когда уже писал ответ.

 

С какими заданиями ChatGPT справился на четверку

Одним из самых простых заданий была просьба объяснить формулу Блэка – Шоулза о ценообразовании опционов старшеклассникам. С ним чат-бот справился неплохо: не ошибался, но использовал много терминологии, которая может быть непонятна школьникам. Хуже ему далась попытка объяснить эту концепцию 10-летнему ребенку: ChatGPTпривел яркую аналогию с покупкой игрушки, но в самом объяснении допустил неточность – имплицитно приравнял акции к опционам на них, отметила Ольга Кузьмина.

С университетскими задачами по эконометрике искусственный интеллект в среднем справился лучше. Сначала мы попросили его оценить доходность акций Microsoft с помощью трехфакторной модели Фамы и Френча (учитывает рыночные риски, а также связанные с размером и стоимостью (недооцененностью) компаний). На основе этого анализа ChatGPT должен был сделать вывод, Microsoft – компания роста или стоимости (соответственно, быстрорастущая, обычно технологическая, компания или стабильная и устойчивая компания).

Подводка к решению была обоснованной, но финальный ответ на вопрос был уже неверным. Другую типовую задачу на производственную функцию чат-бот решил в целом верно, хотя и допустил небольшую ошибку в формуле. 

 

Какие задания чат-бот выполнить не смог 

Научно-исследовательская работа чату не далась. От него требовалось проанализировать базу академических исследований, посвященных влиянию представленности женщин в советах директоров на операционную деятельность и стоимость компаний. А также найти и кратко описать пробелы в этой области экономики.

В первой версии ответа чат-бот процитировал два релевантных и активно цитируемых исследования, к тому же с очень говорящими названиями из всех упомянутых ключевых слов, но в описании каждого из них допустил ошибки. Искусственный интеллект делал в точности противоположные исследованиям выводы, путался в содержании работ и метриках. Например, почему-то решил, что в одном из исследований говорится о социальной ответственности, филантропии и защите окружающей среды, хотя оно совсем о другом, замечает Ольга Кузьмина.

Вторую версию ответа после технической ошибки чат-бот начал с утверждения, что эмпирические данные свидетельствуют о позитивном влиянии женщин в советах директоров на стоимость компаний и их операционную деятельность. А затем взялся за обоснование этой идеи. В ответ на вопрос о самых влиятельных исследованиях в этой области чат-бот выдал список из четырех интересных по названиям исследований известных ученых, указав, что это «лишь несколько примеров». Проверка ответа преподнесла нам большой сюрприз: работы с такими названиями действительно существуют, но написаны другими авторами и опубликованы в другое время. 

Не меньшую фантазию искусственный интеллект проявил и при обсуждении исследования президента РЭШ Шломо Вебера и его соавторов. На вопрос, какую ценность для общества оно может представлять, чат-бот написал: исследование показывает, как в США расовая принадлежность водителей машин влияет на решения полицейских обыскивать их, поэтому оно может помочь в дискуссиях о реформе полиции и расовой справедливости. Вывод ChatGPT не имел отношения к работе: на самом деле в ней анализируются стратегии изучения иммигрантами языка, на котором говорит большинство жителей страны.

Так же закончилась и попытка описать практическую ценность исследования профессора РЭШ Марты Тройи Мартинес. ChatGPT заявил, что исследование вносит вклад в экономику благодаря изучению влияния автоматизации на рынок труда. В действительности же это работа об отношенческих контрактах (их действие основано на доверительных отношениях сторон, в исследовании разрабатывается теория управляемых отношенческих контрактов). 

Возможно, ошибки объяснялись тем, что в обоих вопросах были ссылки с расширением pdf. Поэтому в следующий вопрос мы включили прямую ссылку на текст документа. Результат оказался не лучше. Задача была выделить основные тезисы колонки экспертов Европейского банка реконструкции и развития о последствиях землетрясения в Турции и Сирии в феврале 2023 г. ChatGPT пустился в общие рассуждения о том, как сильно Турция пострадала от землетрясений, и «цитировал» призывы авторов принять срочные меры. На самом же деле текст посвящен модельному сравнению влияния катастроф 1999 и 2023 гг. на экономику страны и сопровождается данными по другим странам. 

 

Фантазии ChatGPT

Наконец, Ольга Кузьмина решила проверить, помог бы ей ChatGPT написать аннотацию к исследованию. Мы дали чат-боту ссылку на ее работу «Гендерное разнообразие в советах директоров корпораций: разрывный дизайн на основе европейских квот» и попросили написать новую аннотацию. С заданием ChatGPT не справился: написал о корпоративной социальной ответственности, что не имеет отношения к содержанию работы. 

Мы решили дать чат-боту возможность сгенерировать новый ответ. На этот раз ссылку на исследование мы ему не дали, надеясь, что сервис поймет, что речь идет о все той же статье. Эта попытка закончилась полным провалом: он предположил, что исследование посвящено влиянию микропластика на водные экосистемы. Не была удачной и третья попытка: чат-бот вернулся к концепции корпоративной социальной ответственности.

Чтобы исключить фактор некорректного чтения ссылок, мы загрузили полный текст введения (около 2000 слов) этой статьи, попросили чат-бот обобщить выводы в трех параграфах, а потом переписать их в одном абзаце. Версию из трех параграфов Ольга Кузьмина назвала «неплохой»: «Предложения из длинного текста надерганы довольно органично, но основные результаты статьи описаны поверхностно». Короткая же версия опять содержала ошибку. 

 

Прогнозы ChatGPT

Наконец, мы решили проверить способность ChatGPT давать прогнозы. В ответе на вопрос, когда в экономике будут устранены гендерные разрывы, он сослался на прогноз Всемирного экономического форума – через 135,6 года (проверка показала, что цифра была верной). На вопрос, может ли человечество преодолеть экономическое неравенство, чат-бот ответил, что это возможно, но уточнил, что «для этого потребуются постоянные и согласованные усилия политиков, бизнеса и людей». Рецепт достижения экономического равенства, по его словам, выглядел так: введение прогрессивного налогообложения, развитие сетей социальной защиты, инвестиции в образование и обучение, поддержка малых и средних предприятий, поддержка предприятий, выстраивающих справедливые отношения с работниками. 

Мы попросили его привести факты в поддержку этой позиции. Сервис выдал список из пяти пунктов, в описании которых сослался на информацию от ведущих международных организаций: Oxfam, ОЭСР, МВФ, американского исследовательского центра Pew Research, а также журнала Harvard Business Review. Мы попросили чат-бот дать прямые ссылки на упомянутые документы. Бот выдал перечень активных ссылок, которые выглядели вполне правдоподобно. Первая проверка показала, что всех этих страниц не существует! Мы продолжили искать по ключевым словам, содержащимся в ссылке, и оказалось, что сами документы и опросы существуют, но располагаются по другим ссылкам. 

Сколько часов в день будут работать люди через 10 лет, продолжали мы интервью. Затрудняясь «с уверенностью» ответить на этот вопрос, чат-бот сослался на «множество факторов», влияющих на количество рабочих часов, и перечислил три из них:

 - автоматизация рутинных задач с помощью робототехники и технологий искусственного интеллекта может снизить спрос на некоторые виды труда и одновременно создать новые рабочие места в появляющихся отраслях;

 - демографические сдвиги: по мере старения населения число рабочих мест может сократиться;

 - социальные нормы: в последние годы люди начинают с большим вниманием относиться к соотношению рабочего и личного времени и искать более гибкий график работы, что может привести к сокращению рабочей недели или более гибкому режиму работы.

 

Итоговая оценка от профессора РЭШ

Ольга Кузьмина: «Дает хорошие общие ответы, когда «льет воду», но, так как почти все время искажает факты, я бы даже к «воде» относилась довольно настороженно. Например, в середине внешне разумного текста могут встречаться полностью нелогичные выводы или искажение основ, за что студент может сразу получить неудовлетворительную оценку. Наверное, при более аккуратных последовательных запросах ChatGPT поможет сэкономить время, но в любом случае для проверки написанного им текста понадобится человек, разбирающийся в теме. Что в целом неудивительно, ведь даже люди не всегда могут «почитать интернет» и понять, где научные факты, а где фантазии. Что уж говорить про вопросы, по которым даже исследователи между собой не всегда соглашаются… Что касается решения задач, думаю, многие профессора уже используют ChatGPT для проверки своих задач на «стандартность». 

 

Разговор в пользу студентов

Под конец мы попросили чат-бот взять на себя роль научного руководителя и дать пять рекомендаций, как студенты-экономисты, обучающиеся на PhD, могут помочь себе преодолеть «депрессию третьего года»(так называют момент, когда «кончаются курсы и нужно самостоятельно придумать что-то новое, а это очень тяжело», объяснял научный руководитель РЭШ Рубен Ениколопов). 

Чат-бот предложил:

 - обратиться за поддержкой к коллегам или недавним выпускникам;

 - попросить совета у научного руководителя;

 - взять короткий отпуск и отдохнуть;

 - воспользоваться университетскими ресурсами, которые предлагают консультации или терапию;

 - пересмотреть свои цели и мотивы.

После этого мы попросили ChatGPT ответить на вопрос, как студенты-экономисты могут справиться с выгоранием, и составить список из 10 открытых образовательных ресурсов, где можно получить научно доказанную информацию по этой теме. ChatGPT выдал такой список: справочный центр Американской психологической ассоциации, чек-лист по выгоранию от медицинской организации Mayo Clinic, просветительское подразделение Гарвардской медицинской школы Harvard Health Publishing, веб-сайт Mindful.org, лекции Ted Talks, образовательная платформа Coursera, Всемирная организация здравоохранения, Национальный институт психического здоровья (США), Американская ассоциация тревожности и депрессии, а также Международная ассоциация управления стрессом (Великобритания). Этот список реально существующих ресурсов он сопроводил кратким описанием той информации, которую они предоставляют. 

Наконец, мы попросили ChatGPT действовать, как опытный экономист, и ответить на вопрос, как экономистам справиться с синдромом самозванца. Чат-бот посоветовал: признать, что с этой проблемой сталкиваются многие, составить список своих сильных сторон и достижений, обратиться за поддержкой к коллегам и наставникам, продолжать учиться и развивать свои навыки, заботиться о физическом и ментальном здоровье – высыпаться и регулярно заниматься спортом, обратиться за профессиональной помощью, например терапевтической.

Полное описание эксперимента со скриншотами, некоторыми другими ответами чат-бота и развернутыми комментариями Ольги Кузьминой вы можете прочитать здесь.