Почему статистика не работает, и что с этим делать

Большинство публикаций про статистику начинаются с известного выражения: «Существует три вида лжи: ложь, наглая ложь и статистика». Отличная традиция, давайте ее поддержим. Основания для скептического отношения есть, и для начала рассмотрим их.

Числовые данные выглядят веско, академично, убедительно — это же цифры! То есть элита среди фактов. А уж если было проведено исследование… Как можно спорить с выводами, которые сделаны на основании статистических данных?

Ну например вот так.

Манипуляции со статистикой

Прежде всего, надо проверять все эти «исследования». Что делать сложно, дорого, трудоемко, а зачастую и вовсе нереально. Вы же не будете покупать аналогичное уникальное оборудование, летать в прошлое, набирать полные больницы пациентов с определенными диагнозами, самостоятельно пересчитывать трафик на локациях и т.д.

Обычно мы принимаем все на веру. Никто кроме авторов исследований не знает, как на самом деле собирали исходные данные, какие из них попали в выборку, а что подчистили для красивой диаграммы.

Кроме того, ошибки бывают и случайно. Помните эпоху шпината? Когда не там поставили запятую в исследовании о содержании железа в зелени, все решили, что это чудо-трава, и стали пичкать ею детей. Прошло много лет, прежде чем удосужились проверить и снизить показатель в 10 раз. Но образ суперполезной зелени за шпинатом закрепился, похоже, навсегда – его до сих пор рекомендуют диетологи и врачи.

Ладно, пусть все цифры собраны добросовестно, никаких подчисток и опечаток нет. Теперь-то можно верить статистике? Как бы не так! Важно в каком виде ее покажут. Возможны такие манипуляции:

  • Выборочный охват. Достаточно взять показатели за удачный период, и продукт демонстрирует рост продаж, а компания прибыльность. Хотя в целом ситуация может быть другой.
  • Среднее вместо медианы. Если сложить оклады вахтеров и топ-менеджмента, получится бесполезная и ложная «общая картина».
  • Игра со шкалами. Наводим мощную лупу на ось Y, и незначительная рябь по вертикали начинает казаться обвалом или взлетом. Часто применяется в курсах валют, ценных бумаг и акций.
  • Относительные значения. Без инфографики тоже можно: вдвое выросло, втрое снизилось. Звучит громко, а реальные изменения могут быть незаметными. Например, было 2 – стало 4 (при общих объемах в сотни или тысячи).
  • Нерелевантные метрики. Охваты вместо лидов, лиды вместо конверсий, конверсии вместо продаж — по одной и той же аналитике интернет-магазина можно построить множество разных отчетов. Одни из них рапортуют о победе над рынком, другие фиксируют провал рентабельности и убытки.
  • Экстраполяция. Это мое любимое, тут лучше показать на картинке:

Экстраполяция

Ничего страшного, что ноль выше пересечения осей, так даже лучше. Классика жонглирования цифрами как раз в том и заключается, чтобы выстроить их под определенные выводы.

Наконец, и тоже в любимчиках – перлы с сайта Spurious Correlations. Там берут статистические данные с открытых источников и сопоставляют их для выявления корреляций. Выглядят они, например, так:

корреляции с сайта Spurious Correlations

На графике выше наглядно показана убедительная связь между популярностью имени Киллиан и возвратами автомобилей из-за проблем с подушками безопасности.

Там полно чудесных корреляций. Среди них:

  • Текущее расстояние от Сатурна до Солнца — количество поисков в Google по запросу «Как сделать ребенка».
  • Популярность имени Маргарита — кражи машин в Индиане.
  • Запрос в Google «Тейлор Свифт» — использование топлива на Вирджинских островах.
  • Объемы ГМО при выращивании кукурузы в Канзасе — количество почтальонов в том же Канзасе.
  • Популярность мема про парня, который оглянулся на чужую девушку — объем энергии, генерируемой гидроэлектростанциями Туркменистана.
  • Потребление маргарина — количество разводов.
  • Количество судей в Индиане — просмотры сериала «Теория большого взрыва». 

Все эти корреляции настоящие. Они видны по реальным статистическим данным, на основании масштабных официальных исследований. Каждая находка снабжена графиками за много лет наблюдений.

Однако в том и проблема, что даже настоящие и полные цифры сами по себе никакой особой ценности не представляют. Все решает интерпретация.

Когда мы пользуемся чужой статистикой, она редко предоставляется бескорыстно и объективно. Обычно кто-то хорошо вложился в эти цифры, пытается чего-то лоббировать или продать с их помощью. Примерно как врачи в белых халатах на экранах телевизоров, пока их не запретили, наконец, в законе о рекламе.

А закона о статистике пока нет. Поэтому каждый использует ее как хочет. Одни данные утаивает, другие фальсифицирует, третьи показывает тенденциозно. И обязательно сопровождает выводами.

Готовые выводы, да еще на основании цифр — это удобно, конечно. Но спасибо, лучше не надо. Мы как-нибудь сами.

Как пользоваться статистикой 

Действительно, лучшие цифры как подарок: должны быть собраны собственными руками.

С легким допущением к ним можно отнести и цифры, собираемые при помощи вендоров. Например, web-статистика по нашим собственным сайтам, строго говоря, не всегда такая уж «личная». Сохраняется риск ошибок на стороне счетчиков.

Не потому что Яндекс или Google коварно обманут с числом посещений, действиями пользователей на сайте. Бывают задвоения при неправильной настройке, можно случайно потерять полезный трафик из-за собственных фильтров, легко промахнуться с таргетингом, потерять часть данных из-за блокировок cookie.

К сожалению, даже полностью «свои» данные при ближайшем рассмотрении не совсем таковы, их сложно контролировать досконально.

Тем не менее все собственные наблюдения – однозначно, лучшие. Золотой фонд статистики можно дополнять сведениями от партнеров, отраслевым нормированием и далее по нисходящей, со все большими рисками и сомнениями.

Но даже такие цифры полезны. Их можно использовать по-разному:

  • простым поиском составить первичный список конкурентов, 
  • оценить их расположение по онлайн-картам, 
  • прикинуть численность населения по данным 2ГИС, 
  • полистать публикации о сезонных колебаниях спроса, 
  • добавить еще пару метрик по вкусу — и бизнес-план почти готов.

Конечно, хочется брать цифры в основу любых рассуждений, планов и решений. По большому счету вопрос стоит не так: стоит ли использовать чужую статистику. Речь исключительно о степени доверия к ней.

И вот здесь начинается самое интересное. Оценка достоверности числовых данных — задача гораздо более сложная, чем их получение. 

Как оценить достоверность данных

Есть формальные и относительно простые приемы. Сначала стоит провести отсев явных фейков, всевозможной числовой ерунды. Проще всего это делать по авторитетности источников. Условно, данные с РБК – хорошо, пост от юзера Вася200208 в соцсети – плохо. 

Далее, смотрим актуальность. Исторические данные даже для выявления трендов сейчас подходят разве что с натяжкой. Какая разница, что там за динамика была до ковида и последующих событий. Фраза «Там уже их нет» из «Служебного романа» описывает не только ситуацию с гусями в СССР, но и много нынешних остатков по куда более широкому ассортименту. 

Поэтому статистика нужна по возможности свежая. Дата публикации не всегда говорит о том, когда собирались данные. Тут уже надо покопаться.

Не помешает проверить хотя бы в нескольких разных источниках, лучше больше. Вдруг где-то ошиблись, показали только часть, мало ли еще бывает «нестыковок». 

Солидные исследования всегда показывают методологию. Там должны быть все подходы, способы сбора информации, допущения, формулы. Как говорится, не приглашайте меня на вечеринку, если она не похожа по прозрачности на «Рейтинги Рунета». Но и они сталкивались с накрутками и подтасовками. Некоторые участники специально завышали количество сертификатов, вымогали отзывы с клиентов — все ради более высоких строчек. 

Проверять «этичность» данных – от лукавого. А вот подумать об аффилированности участников процесса, пожалуй, стоит. Здесь придется выключить калькулятор, активировать гуманитарное полушарие мозга и задаться вопросом «Кому это выгодно?».

Сам факт публикации определенной статистики иногда может навести на мысли о том, кто за этим стоит и что вообще происходит. Особенно если речь не о регулярных публичных сведениях, а произошел внезапный «слив». 

Кстати о них. Одно дело игнорировать чужую мораль, и немного другое — поступиться собственной. Большое число данных доступно, как бы это помягче, в серой зоне. Через хакерские базы данных, справочные боты в Telegram и прочие мутные схемы. Как ни печально, там довольно много настоящей информации. Актуальной, хорошо структурированной, достоверной. С учетом активности жуликов еще и полной. Флеш-рояль по ключевым характеристикам! Пользоваться ли этим великолепием и как именно – каждый решает сам. 

Мой общий вывод по статистике: она похожа на Интернет. Очень много всего, по большей части условно бесплатно или дешево. При этом качество данных оставляет желать лучшего, проверять их бывает очень сложно и трудоемко. В конечном счете, только вы сами решаете, чему верить или нет, какие цифры отобрать для анализа и своих выводов.

P. S.

У этой темы есть еще один ракурс, возможно, самый важный. Будущее не предопределено. Там, где одни получили выдающиеся результаты, вас может ждать провал. На том же самом рынке, с похожим продуктом для тех же сегментов целевой аудитории. По цифрам все сходится, а по факту – нет. 

Обратное тоже верно: если статистика выглядит удручающе, вы все еще можете преуспеть. Все шансы были против, а ребенок вырос чемпионом. Кукушка поленилась с диагнозом, а он прожил до ста лет.

Мы можем пользоваться историей в числовом выражении, но свою собственную историю пишем сами. 

Будьте приятным исключением из любой статистики. Михаил Жванецкий однажды сказал: «Я так рад, что своею жизнью подтверждаю чью-то теорию». Представьте, насколько приятнее послужить ее опровержением.

Читайте также:

Расскажите коллегам:
Комментарии
Инженер-конструктор, Санкт-Петербург
Станислав Антипов пишет:
Будут, конечно. Не уверен, что влияние это решающее, есть же и другие факторы. Но здесь мы выходим за рамки экономики в политику
Семантика "курса доллара к рублю" тоже скорее политическая тема, особенно если относиться к ней серьезно. Поэтому с уважением откланиваюсь

Не удержался, чтобы привести пример из жизни.

По моему 1989 год, еще Ленинград, Дом книги, с уличного прилавка на канале Грибоедова продают книгу Льва Гумилева, это сын Анны Ахматовой и Николая Гумилева, историк, писатель.

Выстроилась большая очередь вдоль канала Грибоедова, погода хорошая, публика интеллигентная, никто не торопится, люди общаются, обсуждают разные вещи.

Кто-то активно продвигает тезис, что экономика должна быть отделена от политики.

И тут вдруг продавщица сообщает, что книг осталось мало, всем может не хватить. Очередь заволновалась. Кто стоял дальше, выяснили, что многие берут по несколько экземпляров книг. Очередь выносит декрет - давать по одной книге в руки.

Молодой человек, который продвигал тезис, что экономика должна быть отделена от политики, начал оспаривать это решение, а мы были уже близко от прилавка.

И вот тогда я не выдерживаю и говорю ему:

- Молодой человек, с точки зрения экономики не важно, сколько книг отпускать в одни руки, если все они будут проданы, а это уже политика, как же Вы их можете отделить?!

За сим, тоже с уважением откланиваюсь.

Генеральный директор, Москва
Станислав Антипов пишет:
Евгений Равич пишет:
Станислав Антипов пишет:
Но хотя бы условно полезного катастрофически мало. Не только у него, в целом по больнице

Хорошо сказано! 

Вы готовы добавить в список бесполезного (или условно полезного)  Ваши тексты об ИИ, MBA и статистике? Или продолжите настаивать на том, что содержание не так важно, как оригинальность и новизна подачи - естественно, в Вашем понимании ? 

 

Похоже на разбор полётов. Тогда продолжим.

Зависит от ракурса. Здесь есть некоторое количество странных людей,

Смелый вывод. Один из.

Вы слышали о правилах этого форума? Вам не нравятся чьи-то комментарии или мнения - нет проблем. Но участвуйте в обсуждении, приводя аргументы и доводы - или не читайте то и тех, кто Вам по любой причине не мил. Ваш выбор.

В любом случае - воздержитесь от личных оценок.

Если рассматривать площадку как обмен мнениями, фокусировки на темах, свежие мысли (так называемая аналитика) -- другое дело. Это как раз тот жанр, в котором я здесь публикую то одно, то другое

Серьезно?

Имеет смысл спросить тех, кто считает себя профессиональными аналитиками (такие есть на этом форуме, и они работают в разных жанрах), что считают аналитикой именно они. У Вас, как я понимаю, совсем другая работа. Поправьте меня, где нужно.

Но мне нравится название "так называемая аналитика".

А ваш взгляд не понимаю. Полезной информацией вы не делитесь, оригинальных точек зрения не предлагаете, в систематизации тоже не замечены.

Что-то еще?

Этот форум существует, как Вы сказали Выше, для обмена мнениями. Свои я высказываю, если они есть, и далеко не на все темы. Кому они полезны или просто интересны, смотрю по ответам и комментариям.

Что полезно для Вас - увы, не знаю.

Просто накидываетесь и ищете к чему докопаться, как правило с переходом на личности, и часто забывая об исходной теме.

Серьёзное обвинение. Пример дадите? А то самый невинный вопрос  в Ваших глазах выглядит как попытка докопаться, даже не знаю, до чего. Хотя это публичная дискуссия, а не коллекция монологов.

Заодно посмотрите еще раз, что мы прямо сейчас обсуждаем с Вашей подачи в ветке под названием "Почему статистика не работает", и как это связано с исходной (Вашей же) темой. 

Тоже жанр, безусловно. Для меня даже интересный, но скорее как для этнографа. Поэтому всегда вам и похожим по поведению экспертам стараюсь отвечать, чтобы получить новую порцию откровений, в моей жизни иначе недоступных

Отвечайте и дальше, хотя не знаю, кого Вы имеете в виду.

Рад помочь. Откровений я, правда, не видел, но неожиданное (для меня)  встречается.

Я привык к слогану: Ругаешь -- предлагай альтернативу.

Лучше две, на выбор. Не нравится чей-то анализ -- сделай свой, лучше.

Вы здесь, насколько я понимаю, на работе. Я - нет. Учтите, что мне не нужно никого ругать и настаивать - как автору - на своей правоте.

Но всегда интересны логика и аргументы, вне зависимости от того, с чем я изначально согласен или нет. Если автор какого угодно тезиса может его обосновать - отлично. Нет - не моя проблема. Но не задав вопрос, не получишь ответ. Обычно меня устраивает любой ответ, лишь бы я его понял.

Любые предложения имеют смысл в каком-то контексте. Придумаете задачу - посмотрим с другими участниками на альтернативные решения. Возможно, они есть. Краудсорсинг в чистом виде.

Анализ в Вашем исполнении мне пока не попадался. А отраслевые или финансовые отчеты и аналитику я читаю в больших дозах как часть своей работы. Нелегкий труд.

Тогда как я стараюсь писать интересно, что ключевая ценность текстов.

Да, мы это немного обсуждали выше. Свежо, оригинально и интересно. Надеюсь, что Ваши читатели с Вами согласны.

А соответствует ли это реальности (мы же на ресурсе о бизнесе и менеджменте, и большинство участников работает не один день)  - так ли это важно. Тут главное - не переборщить и сохранить хотя бы минимум правдоподобия.

Посмотрите при случае на тексты, например, Фахри Агаева. Свежо. Интересно. И очень содержательно, по мне. Одно другому не мешает.

Руководитель, Москва

Ого, как тут все почистили! Сделал это не я, конечно. По второму кругу не буду ворошить что с чьей подачи, неизвестно еще какие реплики теперь остались в ленте. Хотя довольно много, судя по объему -- листайте назад, там должны быть ответы

Надеюсь, про папайю от Равича сохранилось. Это же классика деловой дискуссии ))

Knowledge manager, Пермь

Не буду искать что тут почистили, но в целом поддержу такую чистку  потому что тема поднята актуальная, а вот осадочек от нее может остаться не только у участников дискуссии, но и у читателей, в том числе будущих.

Подчищу также свое высказывание о том  что при критическом подходе всегда нужно предлагать свое решение.

Бывают случаи и они очень полезны в начале проекта, когда нужно убить идею! Но не в целом, а по конкретике обстоятельств и фактов, когда идея не сработает.

Это позволяет позже, тем или иным специалистам, найти решение при каких обстоятельствах идея может сработать. Это один из элементов позиционирования.

Чтобы извлечь позитив из негатива, лично для меня эта дискуссия показала, что когда мы(я тоже не исключение) говорим только из эмоций или только от ума, то можем накосячить.

Дискуссия также показала важность навыка, которым желательно овладеть каждым менеджером, особенно чтобы локально выходить из глобального кризиса менеджмента.

Это навык общения с фокусом внимания на том  что и как можно сделать, чтобы решить имеющуюся задачу, избегая выяснения кто из специалистов больше или меньше прав.

Иметь разные мнения - это всегда нормально! Каждый "со своей колокольни" смотрит на ту или иную задачу - и это просто здорово!

При обсуждении важно понять остальным как тому или иному учвстнику удобно решить задачу или что ему конкретно не позаоляет это сделать.

То есть это не поиск каких то идеальных или теоретических решений - это поиск подходящих решений как можно быстро и просто достичь намеченных задачей результатов.

Примерно такие навыки и формировали в Тойоте инструкторы- наставники у Руководителей их зарубежных подразделений.

Никого не осуждаю(сам такой), но несмотря на актуальность поднятой темы, думаю что лучше продолжить обсуждение таких тем в других местах или ветках или позже.

Увидимся, когда увидимся!:)

 

Руководитель, Москва
Борис Кондрабаев пишет:
думаю что лучше продолжить обсуждение таких тем в других местах

Им не нужно "обсуждать", это просто повод и способ засветиться публично при отсутствии собственных публикаций. Никто так яростно ни о чем в личке спорить не будет

Генеральный директор, Москва
Борис Кондрабаев пишет:
То есть это не поиск каких то идеальных или теоретических решений - это поиск подходящих решений как можно быстро и просто достичь намеченных задачей результатов.

Совершенно верно - это суть работы менеджера. Скорейшее получение желаемых и - одновременно - приемлемых результатов, если критерии известны, а время дорого.

Если Вы заметили, в этой ветке мы никакую конкретную задачу не обсуждали, хотя предлагался и такой сюжет.

Knowledge manager, Пермь
Евгений Равич пишет:
Борис Кондрабаев пишет:
То есть это не поиск каких то идеальных или теоретических решений - это поиск подходящих решений как можно быстро и просто достичь намеченных задачей результатов.

Совершенно верно - это суть работы менеджера. Скорейшее получение желаемых и - одновременно - приемлемых результатов, если критерии известны, а время дорого.

Если Вы заметили, в этой ветке мы никакую конкретную задачу не обсуждали, хотя предлагался и такой сюжет.

Это высказывание очень похоже на то, что все менеджеры всегда делают то что нужно и не делают того, что не надо делать!

Если даже взять такой частный случай, как например условно можно считать что менеджеры так и делают, как например в Тойоте.

Все равно периодически возникают ситуации, когда встают новые задачи и Руководитель идет и применяет критический подход.

Он смотрит, что происходит на самом деле - как работают и что делают сотрудники и оборудование.

Его помощниками являются 6 вопросов: 5 W + 1H.....

Ранее я уже описывал эти алгоритмы.

Генеральный директор, Москва
Борис Кондрабаев пишет:
Евгений Равич пишет:
Борис Кондрабаев пишет:
То есть это не поиск каких то идеальных или теоретических решений - это поиск подходящих решений как можно быстро и просто достичь намеченных задачей результатов.

Совершенно верно - это суть работы менеджера. Скорейшее получение желаемых и - одновременно - приемлемых результатов, если критерии известны, а время дорого.

Если Вы заметили, в этой ветке мы никакую конкретную задачу не обсуждали, хотя предлагался и такой сюжет.

Это высказывание очень похоже на то, что все менеджеры всегда делают то что нужно и не делают того, что не надо делать!

Я не знаю, что делают все менеджеры. Тем более - всегда. 

Knowledge manager, Пермь
Евгений Равич пишет:
Борис Кондрабаев пишет:
Евгений Равич пишет:
Борис Кондрабаев пишет:
То есть это не поиск каких то идеальных или теоретических решений - это поиск подходящих решений как можно быстро и просто достичь намеченных задачей результатов.

Совершенно верно - это суть работы менеджера. Скорейшее получение желаемых и - одновременно - приемлемых результатов, если критерии известны, а время дорого.

Если Вы заметили, в этой ветке мы никакую конкретную задачу не обсуждали, хотя предлагался и такой сюжет.

Это высказывание очень похоже на то, что все менеджеры всегда делают то что нужно и не делают того, что не надо делать!

Я не знаю, что делают все менеджеры. Тем более - всегда. 

Вероятно потому, что мы понимаем друг друга по своему и своебразно и возникает чаще всего недопонимание.

Я стараюсь приводить примеры, но соглашусь, что они не раскрывают всех нюансов, которые можно понять только при решении конкретной задачи.

Я пока не заметил, чтобы Вы предлагали обсудить решение конкретной задачи?

Да и не уверен возможно ли решить ее здесь, обсуждая без конкретных исполнителей?!

На мой взгляд, здесь можно лишь обсуждать подходы к решению разных задач.

Сами же задачи решаются сначала глубоким погружением в ситуацию - Дзен.

Дзен - потому, что нужно как бы абстрагироваться от привычного(правильного) и наблюдать происходящее, чтобы заметить возможное.

Затем обсуждение с менеджерами, инженерами, и исполнителями, возможно и с финансистами.

В области допустимого каждой из сторон будут лежать подходящие решения.

Генеральный директор, Москва
Борис Кондрабаев пишет:
Я пока не заметил, чтобы Вы предлагали обсудить решение конкретной задачи?

См. выше:

Евгений Равич пишет:
Любые предложения имеют смысл в каком-то контексте. Придумаете задачу - посмотрим с другими участниками на альтернативные решения. Возможно, они есть. Краудсорсинг в чистом виде.

Предлагалось автору темы.

Борис Кондрабаев пишет:
На мой взгляд, здесь можно лишь обсуждать подходы к решению разных задач.

Согласен.

Оставлять комментарии могут только зарегистрированные пользователи
Статью прочитали
Обсуждение статей
Все комментарии
Дискуссии
Все дискуссии
HR-новости
Исследование: чего ждут российские IT-специалисты от работодателей

Половина сотрудников в IT мечтают о гибриде, но большинство опрошенных вынуждены работать в офисе.

Предлагаемые в России зарплаты выросли на 25% за год

Быстрее всего зарплаты в 2024 году росли у водителей, сварщиков и промоутеров — в 1,5–2 раза.

90% работодателей готовы нанимать неопытных специалистов

Представители бизнеса считают, что перспективные кандидаты, готовые к обучению, могут стать настоящим активом для компании.

Половина россиян оказалась в состоянии выгорания к концу 2024 года

Наиболее распространенные симптомы выгорания — постоянное чувство усталости и раздражительность.