Почему статистика не работает, и что с этим делать

Большинство публикаций про статистику начинаются с известного выражения: «Существует три вида лжи: ложь, наглая ложь и статистика». Отличная традиция, давайте ее поддержим. Основания для скептического отношения есть, и для начала рассмотрим их.

Числовые данные выглядят веско, академично, убедительно — это же цифры! То есть элита среди фактов. А уж если было проведено исследование… Как можно спорить с выводами, которые сделаны на основании статистических данных?

Ну например вот так.

Манипуляции со статистикой

Прежде всего, надо проверять все эти «исследования». Что делать сложно, дорого, трудоемко, а зачастую и вовсе нереально. Вы же не будете покупать аналогичное уникальное оборудование, летать в прошлое, набирать полные больницы пациентов с определенными диагнозами, самостоятельно пересчитывать трафик на локациях и т.д.

Обычно мы принимаем все на веру. Никто кроме авторов исследований не знает, как на самом деле собирали исходные данные, какие из них попали в выборку, а что подчистили для красивой диаграммы.

Кроме того, ошибки бывают и случайно. Помните эпоху шпината? Когда не там поставили запятую в исследовании о содержании железа в зелени, все решили, что это чудо-трава, и стали пичкать ею детей. Прошло много лет, прежде чем удосужились проверить и снизить показатель в 10 раз. Но образ суперполезной зелени за шпинатом закрепился, похоже, навсегда – его до сих пор рекомендуют диетологи и врачи.

Ладно, пусть все цифры собраны добросовестно, никаких подчисток и опечаток нет. Теперь-то можно верить статистике? Как бы не так! Важно в каком виде ее покажут. Возможны такие манипуляции:

  • Выборочный охват. Достаточно взять показатели за удачный период, и продукт демонстрирует рост продаж, а компания прибыльность. Хотя в целом ситуация может быть другой.
  • Среднее вместо медианы. Если сложить оклады вахтеров и топ-менеджмента, получится бесполезная и ложная «общая картина».
  • Игра со шкалами. Наводим мощную лупу на ось Y, и незначительная рябь по вертикали начинает казаться обвалом или взлетом. Часто применяется в курсах валют, ценных бумаг и акций.
  • Относительные значения. Без инфографики тоже можно: вдвое выросло, втрое снизилось. Звучит громко, а реальные изменения могут быть незаметными. Например, было 2 – стало 4 (при общих объемах в сотни или тысячи).
  • Нерелевантные метрики. Охваты вместо лидов, лиды вместо конверсий, конверсии вместо продаж — по одной и той же аналитике интернет-магазина можно построить множество разных отчетов. Одни из них рапортуют о победе над рынком, другие фиксируют провал рентабельности и убытки.
  • Экстраполяция. Это мое любимое, тут лучше показать на картинке:

Экстраполяция

Ничего страшного, что ноль выше пересечения осей, так даже лучше. Классика жонглирования цифрами как раз в том и заключается, чтобы выстроить их под определенные выводы.

Наконец, и тоже в любимчиках – перлы с сайта Spurious Correlations. Там берут статистические данные с открытых источников и сопоставляют их для выявления корреляций. Выглядят они, например, так:

корреляции с сайта Spurious Correlations

На графике выше наглядно показана убедительная связь между популярностью имени Киллиан и возвратами автомобилей из-за проблем с подушками безопасности.

Там полно чудесных корреляций. Среди них:

  • Текущее расстояние от Сатурна до Солнца — количество поисков в Google по запросу «Как сделать ребенка».
  • Популярность имени Маргарита — кражи машин в Индиане.
  • Запрос в Google «Тейлор Свифт» — использование топлива на Вирджинских островах.
  • Объемы ГМО при выращивании кукурузы в Канзасе — количество почтальонов в том же Канзасе.
  • Популярность мема про парня, который оглянулся на чужую девушку — объем энергии, генерируемой гидроэлектростанциями Туркменистана.
  • Потребление маргарина — количество разводов.
  • Количество судей в Индиане — просмотры сериала «Теория большого взрыва». 

Все эти корреляции настоящие. Они видны по реальным статистическим данным, на основании масштабных официальных исследований. Каждая находка снабжена графиками за много лет наблюдений.

Однако в том и проблема, что даже настоящие и полные цифры сами по себе никакой особой ценности не представляют. Все решает интерпретация.

Когда мы пользуемся чужой статистикой, она редко предоставляется бескорыстно и объективно. Обычно кто-то хорошо вложился в эти цифры, пытается чего-то лоббировать или продать с их помощью. Примерно как врачи в белых халатах на экранах телевизоров, пока их не запретили, наконец, в законе о рекламе.

А закона о статистике пока нет. Поэтому каждый использует ее как хочет. Одни данные утаивает, другие фальсифицирует, третьи показывает тенденциозно. И обязательно сопровождает выводами.

Готовые выводы, да еще на основании цифр — это удобно, конечно. Но спасибо, лучше не надо. Мы как-нибудь сами.

Как пользоваться статистикой 

Действительно, лучшие цифры как подарок: должны быть собраны собственными руками.

С легким допущением к ним можно отнести и цифры, собираемые при помощи вендоров. Например, web-статистика по нашим собственным сайтам, строго говоря, не всегда такая уж «личная». Сохраняется риск ошибок на стороне счетчиков.

Не потому что Яндекс или Google коварно обманут с числом посещений, действиями пользователей на сайте. Бывают задвоения при неправильной настройке, можно случайно потерять полезный трафик из-за собственных фильтров, легко промахнуться с таргетингом, потерять часть данных из-за блокировок cookie.

К сожалению, даже полностью «свои» данные при ближайшем рассмотрении не совсем таковы, их сложно контролировать досконально.

Тем не менее все собственные наблюдения – однозначно, лучшие. Золотой фонд статистики можно дополнять сведениями от партнеров, отраслевым нормированием и далее по нисходящей, со все большими рисками и сомнениями.

Но даже такие цифры полезны. Их можно использовать по-разному:

  • простым поиском составить первичный список конкурентов, 
  • оценить их расположение по онлайн-картам, 
  • прикинуть численность населения по данным 2ГИС, 
  • полистать публикации о сезонных колебаниях спроса, 
  • добавить еще пару метрик по вкусу — и бизнес-план почти готов.

Конечно, хочется брать цифры в основу любых рассуждений, планов и решений. По большому счету вопрос стоит не так: стоит ли использовать чужую статистику. Речь исключительно о степени доверия к ней.

И вот здесь начинается самое интересное. Оценка достоверности числовых данных — задача гораздо более сложная, чем их получение. 

Как оценить достоверность данных

Есть формальные и относительно простые приемы. Сначала стоит провести отсев явных фейков, всевозможной числовой ерунды. Проще всего это делать по авторитетности источников. Условно, данные с РБК – хорошо, пост от юзера Вася200208 в соцсети – плохо. 

Далее, смотрим актуальность. Исторические данные даже для выявления трендов сейчас подходят разве что с натяжкой. Какая разница, что там за динамика была до ковида и последующих событий. Фраза «Там уже их нет» из «Служебного романа» описывает не только ситуацию с гусями в СССР, но и много нынешних остатков по куда более широкому ассортименту. 

Поэтому статистика нужна по возможности свежая. Дата публикации не всегда говорит о том, когда собирались данные. Тут уже надо покопаться.

Не помешает проверить хотя бы в нескольких разных источниках, лучше больше. Вдруг где-то ошиблись, показали только часть, мало ли еще бывает «нестыковок». 

Солидные исследования всегда показывают методологию. Там должны быть все подходы, способы сбора информации, допущения, формулы. Как говорится, не приглашайте меня на вечеринку, если она не похожа по прозрачности на «Рейтинги Рунета». Но и они сталкивались с накрутками и подтасовками. Некоторые участники специально завышали количество сертификатов, вымогали отзывы с клиентов — все ради более высоких строчек. 

Проверять «этичность» данных – от лукавого. А вот подумать об аффилированности участников процесса, пожалуй, стоит. Здесь придется выключить калькулятор, активировать гуманитарное полушарие мозга и задаться вопросом «Кому это выгодно?».

Сам факт публикации определенной статистики иногда может навести на мысли о том, кто за этим стоит и что вообще происходит. Особенно если речь не о регулярных публичных сведениях, а произошел внезапный «слив». 

Кстати о них. Одно дело игнорировать чужую мораль, и немного другое — поступиться собственной. Большое число данных доступно, как бы это помягче, в серой зоне. Через хакерские базы данных, справочные боты в Telegram и прочие мутные схемы. Как ни печально, там довольно много настоящей информации. Актуальной, хорошо структурированной, достоверной. С учетом активности жуликов еще и полной. Флеш-рояль по ключевым характеристикам! Пользоваться ли этим великолепием и как именно – каждый решает сам. 

Мой общий вывод по статистике: она похожа на Интернет. Очень много всего, по большей части условно бесплатно или дешево. При этом качество данных оставляет желать лучшего, проверять их бывает очень сложно и трудоемко. В конечном счете, только вы сами решаете, чему верить или нет, какие цифры отобрать для анализа и своих выводов.

P. S.

У этой темы есть еще один ракурс, возможно, самый важный. Будущее не предопределено. Там, где одни получили выдающиеся результаты, вас может ждать провал. На том же самом рынке, с похожим продуктом для тех же сегментов целевой аудитории. По цифрам все сходится, а по факту – нет. 

Обратное тоже верно: если статистика выглядит удручающе, вы все еще можете преуспеть. Все шансы были против, а ребенок вырос чемпионом. Кукушка поленилась с диагнозом, а он прожил до ста лет.

Мы можем пользоваться историей в числовом выражении, но свою собственную историю пишем сами. 

Будьте приятным исключением из любой статистики. Михаил Жванецкий однажды сказал: «Я так рад, что своею жизнью подтверждаю чью-то теорию». Представьте, насколько приятнее послужить ее опровержением.

Читайте также:

Расскажите коллегам:
Комментарии
Руководитель, Москва
Евгений Равич пишет:
Если Вы хотите поговорить

Не особо, признаться ) но тем и плох разовый шаг появления в комментах, что уже просто нужно отвечать. По крайней мере при личных обращениях. Чтобы в этом был какой-то смысл, давайте проясним суть беседы

Моя позиция заключается в попытке немного стряхнуть позолоту со статистики как с apriori более достоверных сведений, чем без цифр. На статистику опираются все кому не лень, часть этого бесконечного списка вы сами выше перечислили.

При этом как и положено вы акцентировали (и продолжаете), что главное делать все по науке ("использовать логарифмические шкалы переменных в уравнениях множественной регрессии"), и тогда все будет условно хорошо ("статистическое исследование <...> имеет какие-то цели, планируется и заканчивается выводами. Иногда эти выводы не совпадают с ожиданиями, но мы говорим о науке, в которой истина дороже")

Так вот, это и есть надкушенное со всех сторон яблоко раздора

Я утверждаю, что НЕТ истины, которая дороже на основании статистических исследований. Потому что они:

  • Чужие (здесь уже все понятно)
  • Публикуются тенденциозно (чужие в квадрате)
  • Еще и с таймингом публикаций бывают интересные кейсы (чужое в кубе)
  • Интерпретируются для ленивых и без нужных компетенций тоже "кем-то" (чужое в 4 степени)
  • Ах да, изначально могут быть с подтасовками, умолчаниями, полный букет того что к поиску истины никакого отношения не имеет, а вот к получению "правильных" на чей-то взгляд результатов еще как да (чужое в 5 степени)

В этой длинной цепочке значимость математики растворяется. Да, было БЫ очень важно что там и как именно посчитали. Но в реальной жизни гораздо важнее обычно КТО это сделал, ЗАЧЕМ, через КОГО опубликовал, ГДЕ, КОГДА

Вы с этими тезисами согласны, не согласны?

Или хотите поговорить о другой теме, изолированно про саму математическую статистику? Тогда извините. Статья о другом ракурсе. Понимаю, что читать лонгриды скучно -- ну вот я в комментарии рассказал о чем был текст

Консультант, Новосибирск

Статистика это очень важная наука. Например, я могу доказать, что население Ирландии многократно превышает население Китая. Просто я буду учитывать только рыжих...

Инженер, Томск
Сергей Корчанов пишет:

Статистика это очень важная наука. Например, я могу доказать, что население Ирландии многократно превышает население Китая. Просто я буду учитывать только рыжих...

Все правильно, только надо в заголовке написать "Рыжее население Ирландии многократно превышете рыжее население Китая"

Сразу все становится на свои места.

 

Инженер, Томск

Статистикой, как и любым инструментом нужно уметь пользоваться.

Например Росстат порадовал в конце непомнюкакогогода ростом производства, все телевизоры тогда рассказывали какие мы молодцы и даже гарант высказался по этому поводу в положительном смысле.

На том же самом сайте Росстата есть статистика по перевозкам и там снижение объема перевозок за тот же период, т.е. мы нарастили производство чего-то, что не требует транспортировки? Интересно чего это?

Потом выяснилось, что Росстат подкрутил методику расчетов.

А что касается телевизоров, то есть статитсика, что ни одно слово в масс медиа сегодня не произносится бесплатно.

Системный администратор, Москва

Краткие выводы.
- Сатистика все еще работает;

- Cтатья про манипуляции и фактчекинг.

Генеральный директор, Тольятти

У олдовых связистов есть грустная поговорка, выверенная годами. "Связь есть, но она не работает".

Сдается мне, такова же ситуация и со статистикой в нашей стране. 

Взять статистику средних зарплат, в качестве примера. Публикуют в статотчетах некую "среднюю зарплату по регионам". Открываешь методику ея подсчета - оказывается, что источники данных - крупные и средние предприятия. А где бюджетники и работники мелких предприятий?

Методика определения медианного дохода еще того интереснее. Начинается сей документ с предложения "Расчеты распределения населения по уровню среднедушевых денежных доходов осуществляются с применением методов имитационного моделирования путем преобразования эмпирического распределения, полученного на основе данных выборочных обследований, в ряд распределения, соответствующий значению группировочного признака в генеральной совокупности".

Для оценки степени расхождения статистики и окружающей действительности также можно сравнить учетную ставку ЦБ и уровень инфляции по отчетам Роскомстата.

Такие вот группировочные признаки у нынешней статистики. Куда ни кинь, короче говоря...

Инженер, Томск
Юрий Полозов пишет:

У олдовых связистов есть грустная поговорка, выверенная годами. "Связь есть, но она не работает".

Сдается мне, такова же ситуация и со статистикой в нашей стране. 

Взять статистику средних зарплат, в качестве примера. Публикуют в статотчетах некую "среднюю зарплату по регионам". Открываешь методику ея подсчета - оказывается, что источники данных - крупные и средние предприятия. А где бюджетники и работники мелких предприятий?

Методика определения медианного дохода еще того интереснее. Начинается сей документ с предложения "Расчеты распределения населения по уровню среднедушевых денежных доходов осуществляются с применением методов имитационного моделирования путем преобразования эмпирического распределения, полученного на основе данных выборочных обследований, в ряд распределения, соответствующий значению группировочного признака в генеральной совокупности".

Для оценки степени расхождения статистики и окружающей действительности также можно сравнить учетную ставку ЦБ и уровень инфляции по отчетам Роскомстата.

Такие вот группировочные признаки у нынешней статистики. Куда ни кинь, короче говоря...

И при этом у сбера есть сервис, в котором показаны по отраслям медианные выплаты на зарплатные карты. Занимательно, только сервис нигде не афишируется))

Генеральный директор, Тольятти
Евгений Пугачев пишет:
И при этом у сбера есть сервис, в котором показаны по отраслям медианные выплаты на зарплатные карты.

Уважаемый Евгений,

берите выше - социальный фонд РФ знает о каждом перечислении белой зарплаты (есть, правда некие лазеечки в виде социальных выплат).

Толку-то?

Консультант, Москва
Юрий Полозов пишет:
У олдовых связистов есть грустная поговорка, выверенная годами. "Связь есть, но она не работает". Сдается мне, такова же ситуация и со статистикой в нашей стране.  Взять статистику средних зарплат, в качестве примера. Публикуют в статотчетах некую "среднюю зарплату по регионам". Открываешь методику ея подсчета - оказывается, что источники данных - крупные и средние предприятия. А где бюджетники и работники мелких предприятий? Методика определения медианного дохода еще того интереснее. Начинается сей документ с предложения "Расчеты распределения населения по уровню среднедушевых денежных доходов осуществляются с применением методов имитационного моделирования путем преобразования эмпирического распределения, полученного на основе данных выборочных обследований, в ряд распределения, соответствующий значению группировочного признака в генеральной совокупности". Для оценки степени расхождения статистики и окружающей действительности также можно сравнить учетную ставку ЦБ и уровень инфляции по отчетам Роскомстата. Такие вот группировочные признаки у нынешней статистики. Куда ни кинь, короче говоря...

Несомненно! Только собственно сама статистика здесь  при чем? По телефону и мошенники звонят (отменить телефоны?). А вот статистика и машинное обучение - это хорошие инструменты. Защитная реакция понятна - это сложно, забыто все и т.д, "давайте объявим, что она не работает" - так же проще (нам). А уж промышленная статистика - ну например, 6 сигма - так это же про качество процессов - тут и наука и софт и практика (кстати, в Европе загнивающей очень неплохо платили спецам по этому направлению)! А чем заменить промышленную статистику - ужимками и прыжками софт-скиллов? Ну это к кадровичкам, другого они не умеют.

А насчет манипуляций с данными - это некоторый (пусть и небольшой)  раздел о том, как офисные махинаторы это используют или могут использовать. И знаете, у слушателей этот раздельчик пользуется повышенной популярностью! Но обсуждать это для открытой аудитории - не очень хорошая идея (подходы и результаты заразительны).

Автор статьи справедливо привел данные о корреляциях. Однако многие менеджеры плохо осознают, что корреляция - это степень линейной связи данных, не означает наличие причинности. Более того, есть примеры, когда параметры функционально зависимы, а корреляция равна нулю (сомневающимся советую погуглить и разобраться самостоятельно, полезно). Так что да, интерпретация полученных результатов очень важна.

Генеральный директор, Москва
Эрнст Мальцев пишет:
Только собственно сама статистика здесь  при чем?

Ответ очевиден. 

Эрнст Мальцев пишет:
Однако многие менеджеры плохо осознают, что корреляция - это степень линейной связи данных, не означает наличие причинности.

Странно, что автор не приводит примеры корреляции чего угодно с лунными фазами. Или известные примеры с высокой летальностью в связи с  употреблением огурцов или 100% вредностью монооксида дигидрогена.

Но выводы были сделан заранее, автор не любит цифры, крайне далек от статистики (любой) как дисциплины и сводит тему к анекдотам и заведомо негативным примерам подделок и уголовщины. Его выбор.

Оставлять комментарии могут только зарегистрированные пользователи
Статью прочитали
Обсуждение статей
Все комментарии
Дискуссии
Все дискуссии
HR-новости
Исследование: чего ждут российские IT-специалисты от работодателей

Половина сотрудников в IT мечтают о гибриде, но большинство опрошенных вынуждены работать в офисе.

Предлагаемые в России зарплаты выросли на 25% за год

Быстрее всего зарплаты в 2024 году росли у водителей, сварщиков и промоутеров — в 1,5–2 раза.

90% работодателей готовы нанимать неопытных специалистов

Представители бизнеса считают, что перспективные кандидаты, готовые к обучению, могут стать настоящим активом для компании.

Половина россиян оказалась в состоянии выгорания к концу 2024 года

Наиболее распространенные симптомы выгорания — постоянное чувство усталости и раздражительность.