Подпишитесь на рассылку
«Экономика для всех»
и получите подарок — карту профессий РЭШ
В экономике набирают популярность эксперименты, помогающие оценить эффективность госполитики. Они ищут ответ на вопрос, поможет ли расходование ресурсов добиться желаемого результата. Но использовать их результаты нужно осторожно – иначе есть риск получить неверный ответ, считает Артем Липин, выпускник Совместного бакалавриата ВШЭ и РЭШ и аспирант Школы менеджмента Келлога при Северо-Западном университете.
Представьте, что вы выбираете новые кроссовки для бега или решили обновить горнолыжное снаряжение. В прошлый раз вы уже покупали продвинутые модели и стали бегать/кататься ощутимо лучше. Так что теперь вы ищете снаряжение экспертного уровня. Но действительно ли своими успехами вы в значительной мере обязаны более продвинутому инвентарю? Стоит ли тратить дополнительные деньги и принесет ли инвестиция отдачу?
На самом деле это непростая исследовательская задача. Подобные ей вопросы часто оказываются в центре масштабных исследований. Как учеба в университете влияет на будущие доходы? Как раса, пол или национальность сказываются на карьере? Какое влияние на политические взгляды оказывает пропаганда?
Ответить на такие вопросы непросто. На первый взгляд кажется очевидным, что университетское образование, тем более продвинутое, поможет на рынке труда, да и данные вроде бы подтверждают это. Молодые магистры в России зарабатывают примерно на 20% больше своих ровесников. Но означает ли это, что именно учеба в магистратуре повышает доход? Нет, поскольку молодые люди, выбравшие магистратуру, отличаются от своих сверстников. Часто они лучше учились в школе или на бакалавриате, больше знали и умели до магистратуры, они более усидчивые, целеустремленные и мотивированные. Есть все основания полагать, что эти люди зарабатывали бы больше, чем отказавшиеся от магистратуры сверстники, даже если бы ограничились бакалавриатом. Выходит, одно лишь наблюдение часто не позволит отделить причину от следствия и понять, например, это государство повлияло пропагандой на взгляды населения или оно скорее следовало за общественным мнением. Не зря ученые говорят, что correlation doesn’t mean causation, или корреляция не означает каузации.
Поиск причин происходящего вокруг нас, разумеется, важен не только для академических исследователей. Понимание причинно-следственных связей позволяет повышать отдачу от использования ограниченных ресурсов – человека, бизнеса или государства, то есть решать ключевую экономическую задачу. Если бюджет больше тратит на образование и здравоохранение, означает ли это, что население станет более образованным и здоровым? Или он лишь зафиксирует неэффективность образовательной и медицинской системы? Если построить больше дорог, приведет ли это к сокращению пробок? Или трафик только вырастет и стоит больше вкладывать в общественный транспорт?
Инструментом выявления причинно-следственных связей на основе наблюдаемой реальности служит эконометрика – научная область на стыке экономики и статистики. А золотым стандартом в этом анализе стали рандомизированные эксперименты, пришедшие в социальные науки из медицины, где их чаще называют клиническими испытаниями. Понять механику эксперимента проще всего на примере испытания нового лекарства, допустим, от мигрени. Для участия в таком эксперименте приглашается несколько сотен или тысяч человек, страдающих от недуга. Части из них – группе испытуемых – предлагается новое лекарство, оставшихся – контрольная группа – вообще ничем не лечат или они получают плацебо. Сравнивая долю выздоровевших в группе испытуемых и контрольной группе, исследователи могут определить, насколько эффективным оказалось новое лекарство.
Экономисты, следуя примеру медиков, давно пытались с помощью экспериментов искать ответы на социальные вопросы. Например, в статье 1987 г. Виллард Мэннинг и соавторы проанализировали влияние страховых планов на спрос на медицинские услуги в США, используя данные проведенного федеральным правительством эксперимента, и обнаружили, что рост стоимости медицинских услуг на 10% снижает спрос на них примерно на 2%.
Развитие экспериментальных и квазиэкспериментальных методов, использование естественных экспериментов, поставленных самой историей, позволили значительно повысить точность выявления причинно-следственных связей и привели к тому, что получило название «революция достоверности» (credibility revolution) в 1990-е и начале нулевых годов. Большой вклад в это внесли работы лауреатов Нобелевской премии по экономике 2021 г. Джошуа Ангриста, Дэвида Карда и Гвидо Имбенса.
Рандомизированные эксперименты приобретают особую роль в связи с увеличивающейся долей эмпирических статей: так, в экономике труда или экономике развития доля эмпирических статей с 1980 по 2015 г. выросла с 60 до более 80%, и даже в макроэкономике доля эмпирических статей превышает 60%. Среди работ в области прикладной микроэкономики, опубликованных на сайте Национального бюро экономических исследований (NBER) за последний год, около 20% – с рандомизированными экспериментами.
Такие исследования позволили многое понять о возможном воздействии и методах улучшения различных государственных и негосударственных программ, особенно в развивающихся странах. Так, работы нобелевского лауреата 2019 г. Майкла Кремера и его соавторов показали, что дегельминтизация, т. е. раздача школьникам лекарств, направленных на борьбу с паразитами, значительно улучшила показатели их здоровья, а также посещаемость в школе. Дополнительный год жизни по результатам программы удалось спасти всего за $4,5. Результаты программы оказались настолько успешными, что Кения запустила программу по борьбе с паразитами на уровне всей страны.
Вместе с тем применение и подчас возведение в абсолют экспериментальных методов встречает полярные оценки. Так, известный статистик Дэвид Фридман утверждал, что «эксперименты позволяют получать гораздо более надежные оценки причинно-следственных связей, чем те, которые можно получить на основе неэкспериментальных данных». А вот нобелевский лауреат 2015 г. и специалист в области экономического роста и экономики развития Ангус Дитон пришел к противоположному выводу: эксперименты редко позволяют оценить те характеристики реального мира, которые в наибольшей степени важны для определения государственной политики, и без подробного теоретического анализа механизмов, стоящих за причинно-следственными связями, вряд ли помогут существенно продвинуться в понимании экономического прогресса.
Рассмотрим в качестве примера эксперимент по выплате базового дохода, проанализированный в серии статей канадского экономиста Евы Вивальт и ее соавторов. Участникам эксперимента, проживающим в американских штатах Техас и Иллинойс и имеющим низкий уровень доходов, в течение трех лет выплачивалась $1000 в месяц без каких-либо рабочих или учебных обязательств. Участники из контрольной группы получали $50 в месяц. Ученые обнаружили, что в среднем испытуемые стали меньше работать по сравнению с контрольной группой и их общие доходы с учетом гарантированной выплаты сократились. Результаты статьи получили широкую огласку в прессе: о ней написали в The New York Times, Forbes, The Washington Post и других изданиях.
Обосновывая важность своей статьи для государственной политики, авторы указывают, что она поможет понять, как денежные трансферты влияют на экономику. На программы социальной помощи, напоминают исследователи, правительство США ежегодно тратит сотни миллиардов – на пособия по уходу за детьми, налоговые льготы и помощь малоимущим семьям. Вместе с тем буквальное применение результатов исследования для определения эффекта таких пособий и льгот может привести к ошибочным выводам. Участники эксперимента могут значительно отличаться от групп, получающих помощь по другим программам, таким образом, результаты эксперимента не обязательно обладают внешней валидностью, что ограничивает возможность их применения к широким слоям населения.
Соседствующим поводом для критики рандомизированных экспериментов, особенно со стороны специалистов в области статистической методологии, служит недостаточно учтенная разнородность (гетерогенность) эффекта. В группе испытуемых зачастую содержатся люди различных полов, национальностей, профессий. Учет всех наблюдаемых характеристик, не говоря о тех, которые нельзя напрямую измерить (например, личностные черты или моральные взгляды), помогает понять, для каких групп меры госполитики могут оказаться скорее вредными, а кто в большей степени пожинает ее плоды.
Получается, что чем более узконаправлен эксперимент, тем более точный результат он даст, но с тем меньшей вероятностью его результаты будут применимы в госполитике, рассчитанной на широкие слои населения. Например, если мы хотим с помощью эксперимента проверить, к чему приведет запрет смартфонов в школах, стоит отдельно провести его в школах в бедных и богатых районах, отдельно в спецшколах. И в каждом случае эксперимент может дать разные результаты.
Некоторые важные для государственной политики параметры, например долю испытуемых, на которых сам эксперимент оказал негативное воздействие, и вовсе нельзя оценить. Если контрольная группа и группа испытуемых в среднем похожи и люди выбраны случайно, то можно понять, как в среднем отличаются результаты в группах. Однако, чтобы понять, насколько вредным или полезным оказалось воздействие для конкретного человека, нужно понять, что было бы конкретно с ним, если бы он был в контрольной группе, а это мы узнать (или оценить) не можем.
Еще больше проблем возникает при использовании результатов исследований в одних странах для поиска оптимальной политики в других. Роль местного, регионального и национального контекста – например, России, Китая или Германии – и его влияние на эффекты государственной политики вообще нередко опускаются в экономических статьях. Недостаток учета местных особенностей проявляется и в практической реализации политики, формировании судебной системы, регулировании торговли и денежного обращения.
Даже если отбросить проблему внешней валидности и возможности обобщения результатов исследований, остается проблема общего равновесия, которое может быть нарушено самим экспериментом. Ее можно проиллюстрировать на простом примере. Представим, что один россиянин (или даже сотня) волей случая получает 1 млн руб. Скорее всего, его жизнь значительно улучшится. Означает ли это, что государственная политика, согласно которой каждый россиянин получает дополнительно 1 млн руб., – это непременно благо? Конечно, нет. Легко предсказать, что цены мгновенно взлетят и полученный миллион обесценится в считанные секунды. Чтобы частично учесть подобную критику, эксперименты с введением базового дохода иногда проводятся на уровне целых деревень, что, хотя и является значительным улучшением их дизайна, все же не позволяет делать содержательные выводы для федеральной политики.
Рандомизированные эксперименты не свободны и от общей критики, характерной для экономической профессии. Статьи, в которых обнаруживается, что экспериментальное или неэкспериментальное воздействие не оказало значимого влияния на испытуемых, гораздо сложнее опубликовать, чем те, где обнаружены статистически значимые эффекты, хотя ценность обоих выводов одинакова. В результате экономические статьи, как, впрочем, и научные работы в других эмпирических областях, страдают от проблемы p-хакинга, т. е. выбора подхода, который приносит желаемые значимые результаты, а не того, который в наибольшей степени приближает нас к пониманию фактов. Справедливости ради надо сказать, что для рандомизированных экспериментов подобные проблемы характерны меньше, чем для большинства распространенных в экономике методов, а поддержка и требование регистрации планов статистического анализа до проведения экспериментов значительно увеличили доверие к полученным результатам.
Резюмируя, можно сказать, что эксперименты стали очень ценным инструментом выявления причинно-следственных связей. Однако их не стоит воспринимать как панацею – всегда остается вопрос, насколько убедительны и валидны полученные оценки, насколько они релевантны для реализации той или иной политики. Популярность в экономике развития набирают статьи, в которых эксперименты используются вместе с теоретическими моделями, позволяющими лучше разобраться, почему наблюдаются те или иные эффекты. Анализ механизмов и причин дает надежду на то, что полученные результаты можно будет использовать не слепо, а с пониманием границ их применимости и учетом конкретных местных особенностей.