Как не поддаться обману зрения в статистике

03.02.2023

Мы часто видим в статистике удивительные совпадения, например корреляцию между затратами в США на науку и числом повесившихся или между фильмами с Николасом Кейджем и числом утонувших в бассейне. Никакой мистики в этом нет – в подкасте «Экономика на слух» Анна Быховская, профессор Университета Дьюка и выпускница РЭШ, объяснила, откуда берутся эти безумные корреляции и как не попасть в их ловушки. Еще она рассказала о том, на что способны модели экономистов, а когда они становятся бесполезны. GURU публикует основные тезисы этого выпуска.

 

Филипп Стеркин 

 

Что такое временные ряды

Это данные, выстроенные по времени: ВВП по годам или кварталам, цены в магазине сегодня, вчера, позавчера, данные о продажах или доходности акций, процентные ставки, обменные курсы, изменение погоды, результаты выступления спортивной команды, данные о заболевших, скажем, ковидом и пр. Мы можем изучать как один временной ряд, так и связи между несколькими.

Сами по себе эти данные весьма понятны, но как их использовать, выявлять закономерности, чтобы делать выводы и строить прогнозы? Для этого существуют разные методы, включая рекомендательные системы и скоринговые алгоритмы. Но есть общий принцип: чем меньше данных, тем проще должна быть модель, иначе мы научимся отлично давать прогнозы на имеющихся данных, но совершенно ничего не сможем сказать про новые наблюдения. 

Вообще, разговор о моделях и их силе – это философский вопрос о том, что мы вообще можем предсказывать, и это заставляет вспомнить о теории научного детерминизма и так называемом демоне Лапласа. Французский математик Пьер-Симон де Лаплас (1749–1827 гг.) предложил провести мысленный эксперимент, и позже героя этого эксперимента стали называть демоном Лапласа. Представим, что существует демон, который может видеть движение всех частиц во Вселенной и может совершенно точно предсказать, что произойдет в будущем, и сказать, что было в прошлом. Лаплас рассуждал о таком разуме применительно к физике. В экономике, мне кажется, ситуация сложнее, потому что движение людей куда более случайно, чем движение частиц. Мы работаем с приближениями.

Допустим, наш временной ряд – это ВВП за последние 30 лет. Квартальные данные – это четыре точки в год. Чтобы создать модель, мы предполагаем, что эти точки, эти данные – результат случайного процесса: каждый день мы подкидываем монетку и в зависимости от того, что выпало – орел или решка, экономика с вероятностью 50% растет или падает. Теперь усложним задачу – пусть эта точка на графике определяется нашим прошлым, тем, что происходило с экономикой последние 10–20 лет. Мы накладываем модель на эти временные ряды, чтобы выявить закономерности и построить прогноз. И тут возникает вопрос, какие модели хорошие, а какие плохие и есть ли вообще истинная модель. Как говорил британский статистик Джордж Бокс, в сущности, все модели неправильные, но некоторые из них полезны. Мы не возьмемся утверждать, что есть модель, которая точно описывает, как устроен мир, это скорее наш способ что-то сказать про то, что произойдет в будущем. Соответственно, цель изучения временных рядов – выбрать те модели, которые полезны. Для того чтобы построить модель, мы должны решить четыре задачи:

 - выявить тренд – допустим, определить, это линейный рост показателя или экспоненциальный;

 - учесть сезонность. Например, каждое лето авиабилеты в среднем дорожают, зимой снижается строительство, 14 февраля каждый год повышается спрос на цветы и конфеты;

 - выявить бизнес-циклы в экономике – например, рост или падение ВВП. В отличие от сезонности эти циклы не имеют фиксированной продолжительности, и нельзя сказать, что, если экономика растет три года, значит, дальше она будет падать тоже три года;

 - определить постоянство эффекта. Допустим, если сегодня скакнула процентная ставка, то это сильно повлияет на финансовые рынки завтра. Но будет ли этот эффект ощутим и завтра? А через год, через 10 лет и т. д.? Это очень важный вопрос. 

 

Откуда берутся ложные корреляции

Есть две причины их появления. Первая – обычное совпадение в результате подгонки данных. Если перебрать очень-очень много данных, то в итоге мы найдем, конечно же, две похожие последовательности, например данные о потреблении молока и настольных играх (или число выданных дипломов по социологии и полеты в космос. – Ред.). Это показывает теорема о бесконечных обезьянах: случайно нажимая клавиши печатной машинки, обезьяна может в итоге напечатать «Гамлета».

Вторая причина связана уже с временными рядами. Их можно разделить на стационарные и нестационарные. Стационарные – это хорошие временные ряды, когда влияние какого-то события достаточно быстро исчезает. Например, если я не выспалась сегодня, то буду ощущать это завтра, но через неделю, скорее всего, эффект исчезнет. В нестационарных временных рядах эффект не спадает или спадает очень медленно. Например, выбор специальности и научного руководителя влияет на нашу жизнь очень-очень долго. И это создает иллюзию псевдокорреляции между двумя графиками. Допустим, два друга, один в Сочи, а другой в Новосибирске, купили дачи красного цвета, и у них такая традиция, что 1 мая они фотографируются на фоне своих дач и присылают фотоотчет каждый год. И через год, и через два, и через несколько лет, скорее всего, они будут фотографироваться на фоне красного дома. Потому что цвет дома – это очень устойчивая характеристика. Мы будем видеть сильную псевдокорреляцию: цвета домов в Сочи и в Новосибирске случайно совпали, но останутся одного цвета очень надолго. Если же мы будем смотреть на погоду на этих фотографиях, то она, скорее всего, будет сильно отличаться, ибо она более случайная сама по себе, поэтому вряд ли мы получим сильную корреляцию в этом случае. 

Бывает обратная ситуация, когда два нестационарных временных ряда действительно коррелированы. Например, доход и потребление. Человек потребляет фиксированную часть своего дохода – допустим, 80%. Поэтому графики дохода и потребления будут похожи. Такие ряды называются коинтегрированными. Например, доход и потребление – это коинтегрированные временные ряды, оба нестационарные, оба меняются очень сильно, корреляция при этом не исчезает, и они между собой действительно связаны. Изначально это заметил Клайв Грейнджер, когда прочитал статью Джеймса Дэвидсона с соавторами, в которой ученые пытались предсказать рост потребления, используя в качестве предиктора разницу между доходом и потреблением. Грейнджер очень удивился их выводам, потому что скорость роста потребления – это стационарный временной ряд с хорошим свойством, а сами по себе потребление и доход – это нестационарные временные ряды с плохими свойствами. Как же так, почему временные ряды с плохими свойствами помогают предсказать временной ряд с хорошим свойством? Оказалось, что разница этих двух временных рядов с плохими свойствами становится уже временным рядом с хорошими свойствами. То есть мы можем взять два плохих временных ряда, рассчитать разницу между ними и получить хороший временной ряд. В примере с доходами и потреблением корреляция не является ложной. 

Клайв Грейнджер начал работать вместе со своим соавтором Робертом Энглом над теорией коинтеграции, и в 2003 г. они получили Нобелевскую премию. Их методы позволяют проверить, есть ли коинтеграция между несколькими плохими рядами, но эти методы работают в ситуации, когда временных рядов не очень много, например доход и потребление. Если же временных рядов очень много, например много стран или акций, то методы Грейнджера и Энгла перестают работать. Это одна из задач, над которой я работаю, – как придумать новые подходы, которые будут работать в ситуации, когда у нас большие данные, много разных временных рядов. 

 

Примеры применения временных рядов

Временные ряды, конечно, активно используются макроэкономистами, например, в центробанках, в бизнесе при изучении больших данных, в финансах.

Скажем, с их помощью можно проверить гипотезу эффективного рынка. Она говорит о том, что в цене акции уже заложена вся доступная информация о ней, акции торгуются по справедливой цене, поэтому предсказать их изменения, чтобы обыграть рынок, невозможно. И поиск коинтеграций среди цен акций – это как раз попытка заработать, потому что хорошую линейную комбинацию гораздо проще предсказывать. 

Одна из моих работ посвящена эволюции социальных сетей, которые тоже в некотором роде временной ряд – мы наблюдаем сетку друзей или телефонных звонков во времени, поэтому можем применять методы анализа временных рядов и здесь. Другой контекст для этой методологии – изучение эволюции международной торговли.

 

Как улучшить мэтчинг

В своей единственной статье, которая не связана с эконометрикой, я пыталась дополнить алгоритм Гейла – Шепли, который используется для поиска оптимальных пар, в том числе при распределении детей по школам исходя из предпочтений детей и школ. Идея – создать алгоритм, который бы устранял зависть,. Не зависть типа «я завидую Маше и хочу в ее школу, но у меня оценки ниже, чем у Маши, и меня в ее школу не возьмут», а справедливую зависть, когда у меня оценки выше, но меня не взяли. Алгоритм Гейла – Шепли предлагает такое разбиение. 

Однако в нем никак не учитывается, кто ходит с тобой в одну школу. А ведь это очень важно, с кем мы учимся. Часто говорят, что в университеты Лиги плюща, такие как Гарвард, Принстон, Йель, идут не за образованием, а за связями (эта тема также обсуждалась в подкасте о карьере экономиста в науке. – Ред.). Моей целью было добавить предпочтения об одноклассниках в алгоритм Гейла – Шепли и понять, можем ли мы все же добиться хорошего распределения школьников по школам, чтобы никто никому не завидовал. А если кто-то и завидует, то неоправданно: все равно не возьмут в эту школу из-за слишком низких оценок. Это усложняет задачу, но все же при определенных ограничениях можно модифицировать алгоритм и построить распределение по школам так, чтобы люди получали наилучший для себя вариант исходя из своих оценок, и так, чтобы не было оправданной зависти.