Большинство публикаций про статистику начинаются с известного выражения: «Существует три вида лжи: ложь, наглая ложь и статистика». Отличная традиция, давайте ее поддержим. Основания для скептического отношения есть, и для начала рассмотрим их.
Числовые данные выглядят веско, академично, убедительно — это же цифры! То есть элита среди фактов. А уж если было проведено исследование… Как можно спорить с выводами, которые сделаны на основании статистических данных?
Ну например вот так.
Манипуляции со статистикой
Прежде всего, надо проверять все эти «исследования». Что делать сложно, дорого, трудоемко, а зачастую и вовсе нереально. Вы же не будете покупать аналогичное уникальное оборудование, летать в прошлое, набирать полные больницы пациентов с определенными диагнозами, самостоятельно пересчитывать трафик на локациях и т.д.
Обычно мы принимаем все на веру. Никто кроме авторов исследований не знает, как на самом деле собирали исходные данные, какие из них попали в выборку, а что подчистили для красивой диаграммы.
Кроме того, ошибки бывают и случайно. Помните эпоху шпината? Когда не там поставили запятую в исследовании о содержании железа в зелени, все решили, что это чудо-трава, и стали пичкать ею детей. Прошло много лет, прежде чем удосужились проверить и снизить показатель в 10 раз. Но образ суперполезной зелени за шпинатом закрепился, похоже, навсегда – его до сих пор рекомендуют диетологи и врачи.
Ладно, пусть все цифры собраны добросовестно, никаких подчисток и опечаток нет. Теперь-то можно верить статистике? Как бы не так! Важно в каком виде ее покажут. Возможны такие манипуляции:
- Выборочный охват. Достаточно взять показатели за удачный период, и продукт демонстрирует рост продаж, а компания прибыльность. Хотя в целом ситуация может быть другой.
- Среднее вместо медианы. Если сложить оклады вахтеров и топ-менеджмента, получится бесполезная и ложная «общая картина».
- Игра со шкалами. Наводим мощную лупу на ось Y, и незначительная рябь по вертикали начинает казаться обвалом или взлетом. Часто применяется в курсах валют, ценных бумаг и акций.
- Относительные значения. Без инфографики тоже можно: вдвое выросло, втрое снизилось. Звучит громко, а реальные изменения могут быть незаметными. Например, было 2 – стало 4 (при общих объемах в сотни или тысячи).
- Нерелевантные метрики. Охваты вместо лидов, лиды вместо конверсий, конверсии вместо продаж — по одной и той же аналитике интернет-магазина можно построить множество разных отчетов. Одни из них рапортуют о победе над рынком, другие фиксируют провал рентабельности и убытки.
- Экстраполяция. Это мое любимое, тут лучше показать на картинке:
Ничего страшного, что ноль выше пересечения осей, так даже лучше. Классика жонглирования цифрами как раз в том и заключается, чтобы выстроить их под определенные выводы.
Наконец, и тоже в любимчиках – перлы с сайта Spurious Correlations. Там берут статистические данные с открытых источников и сопоставляют их для выявления корреляций. Выглядят они, например, так:
На графике выше наглядно показана убедительная связь между популярностью имени Киллиан и возвратами автомобилей из-за проблем с подушками безопасности.
Там полно чудесных корреляций. Среди них:
- Текущее расстояние от Сатурна до Солнца — количество поисков в Google по запросу «Как сделать ребенка».
- Популярность имени Маргарита — кражи машин в Индиане.
- Запрос в Google «Тейлор Свифт» — использование топлива на Вирджинских островах.
- Объемы ГМО при выращивании кукурузы в Канзасе — количество почтальонов в том же Канзасе.
- Популярность мема про парня, который оглянулся на чужую девушку — объем энергии, генерируемой гидроэлектростанциями Туркменистана.
- Потребление маргарина — количество разводов.
- Количество судей в Индиане — просмотры сериала «Теория большого взрыва».
Все эти корреляции настоящие. Они видны по реальным статистическим данным, на основании масштабных официальных исследований. Каждая находка снабжена графиками за много лет наблюдений.
Однако в том и проблема, что даже настоящие и полные цифры сами по себе никакой особой ценности не представляют. Все решает интерпретация.
Когда мы пользуемся чужой статистикой, она редко предоставляется бескорыстно и объективно. Обычно кто-то хорошо вложился в эти цифры, пытается чего-то лоббировать или продать с их помощью. Примерно как врачи в белых халатах на экранах телевизоров, пока их не запретили, наконец, в законе о рекламе.
А закона о статистике пока нет. Поэтому каждый использует ее как хочет. Одни данные утаивает, другие фальсифицирует, третьи показывает тенденциозно. И обязательно сопровождает выводами.
Готовые выводы, да еще на основании цифр — это удобно, конечно. Но спасибо, лучше не надо. Мы как-нибудь сами.
Как пользоваться статистикой
Действительно, лучшие цифры как подарок: должны быть собраны собственными руками.
С легким допущением к ним можно отнести и цифры, собираемые при помощи вендоров. Например, web-статистика по нашим собственным сайтам, строго говоря, не всегда такая уж «личная». Сохраняется риск ошибок на стороне счетчиков.
Не потому что Яндекс или Google коварно обманут с числом посещений, действиями пользователей на сайте. Бывают задвоения при неправильной настройке, можно случайно потерять полезный трафик из-за собственных фильтров, легко промахнуться с таргетингом, потерять часть данных из-за блокировок cookie.
К сожалению, даже полностью «свои» данные при ближайшем рассмотрении не совсем таковы, их сложно контролировать досконально.
Тем не менее все собственные наблюдения – однозначно, лучшие. Золотой фонд статистики можно дополнять сведениями от партнеров, отраслевым нормированием и далее по нисходящей, со все большими рисками и сомнениями.
Но даже такие цифры полезны. Их можно использовать по-разному:
- простым поиском составить первичный список конкурентов,
- оценить их расположение по онлайн-картам,
- прикинуть численность населения по данным 2ГИС,
- полистать публикации о сезонных колебаниях спроса,
- добавить еще пару метрик по вкусу — и бизнес-план почти готов.
Конечно, хочется брать цифры в основу любых рассуждений, планов и решений. По большому счету вопрос стоит не так: стоит ли использовать чужую статистику. Речь исключительно о степени доверия к ней.
И вот здесь начинается самое интересное. Оценка достоверности числовых данных — задача гораздо более сложная, чем их получение.
Как оценить достоверность данных
Есть формальные и относительно простые приемы. Сначала стоит провести отсев явных фейков, всевозможной числовой ерунды. Проще всего это делать по авторитетности источников. Условно, данные с РБК – хорошо, пост от юзера Вася200208 в соцсети – плохо.
Далее, смотрим актуальность. Исторические данные даже для выявления трендов сейчас подходят разве что с натяжкой. Какая разница, что там за динамика была до ковида и последующих событий. Фраза «Там уже их нет» из «Служебного романа» описывает не только ситуацию с гусями в СССР, но и много нынешних остатков по куда более широкому ассортименту.
Поэтому статистика нужна по возможности свежая. Дата публикации не всегда говорит о том, когда собирались данные. Тут уже надо покопаться.
Не помешает проверить хотя бы в нескольких разных источниках, лучше больше. Вдруг где-то ошиблись, показали только часть, мало ли еще бывает «нестыковок».
Солидные исследования всегда показывают методологию. Там должны быть все подходы, способы сбора информации, допущения, формулы. Как говорится, не приглашайте меня на вечеринку, если она не похожа по прозрачности на «Рейтинги Рунета». Но и они сталкивались с накрутками и подтасовками. Некоторые участники специально завышали количество сертификатов, вымогали отзывы с клиентов — все ради более высоких строчек.
Проверять «этичность» данных – от лукавого. А вот подумать об аффилированности участников процесса, пожалуй, стоит. Здесь придется выключить калькулятор, активировать гуманитарное полушарие мозга и задаться вопросом «Кому это выгодно?».
Сам факт публикации определенной статистики иногда может навести на мысли о том, кто за этим стоит и что вообще происходит. Особенно если речь не о регулярных публичных сведениях, а произошел внезапный «слив».
Кстати о них. Одно дело игнорировать чужую мораль, и немного другое — поступиться собственной. Большое число данных доступно, как бы это помягче, в серой зоне. Через хакерские базы данных, справочные боты в Telegram и прочие мутные схемы. Как ни печально, там довольно много настоящей информации. Актуальной, хорошо структурированной, достоверной. С учетом активности жуликов еще и полной. Флеш-рояль по ключевым характеристикам! Пользоваться ли этим великолепием и как именно – каждый решает сам.
Мой общий вывод по статистике: она похожа на Интернет. Очень много всего, по большей части условно бесплатно или дешево. При этом качество данных оставляет желать лучшего, проверять их бывает очень сложно и трудоемко. В конечном счете, только вы сами решаете, чему верить или нет, какие цифры отобрать для анализа и своих выводов.
P. S.
У этой темы есть еще один ракурс, возможно, самый важный. Будущее не предопределено. Там, где одни получили выдающиеся результаты, вас может ждать провал. На том же самом рынке, с похожим продуктом для тех же сегментов целевой аудитории. По цифрам все сходится, а по факту – нет.
Обратное тоже верно: если статистика выглядит удручающе, вы все еще можете преуспеть. Все шансы были против, а ребенок вырос чемпионом. Кукушка поленилась с диагнозом, а он прожил до ста лет.
Мы можем пользоваться историей в числовом выражении, но свою собственную историю пишем сами.
Будьте приятным исключением из любой статистики. Михаил Жванецкий однажды сказал: «Я так рад, что своею жизнью подтверждаю чью-то теорию». Представьте, насколько приятнее послужить ее опровержением.
Читайте также:
Видел вашу просьбу и раньше, но слишком узкая целевая аудитория. Кроме того, папайю я даже есть не особо люблю, куда уж там выращивать. А матстатистика была в универе, потом регулярно с ней сталкиваюсь на тендерах, в маркетинге, презентациях, раньше еще в академической среде -- и всегда вокруг много людей точно с таким как у вас придыханием
Это же НАУКА! Как вообще можно прикасаться грязными от прагматики пальцами к святому. Извините что опять ссылаюсь на текст выше, ну право же нехорошо заставлять переписывать примеры и аргументацию разными словами, пока вы сможете понять о чем речь, почему так, как это связано с деловой активностью, да и не только
Да, есть матстатистика. Сама по себе она не хороша и не плоха, это инструмент
Нет, она не всегда (мягко говоря) работает так, как декларируется. По причинам, изложенным выше. И даже когда работает, часто находятся желающие манипулировать результатами
Повод ли это отказываться от статистики, как вы сгоряча предлагаете сделать вообще с любой наукой? Нет, не повод. Лучше пользоваться адекватно, с поправкой на сильный боковой ветер. Особенно результатами ЧУЖИХ исследований. О чем кстати и была статья, вот опять к ней возвращаюсь, простите великодушно что никак не впишусь нормально в вашу свару )
Жаль. Больше и надеяться не на кого.
С моим дыханием всё нормально. У всех прочих участников дискуссии - тоже, насколько я вижу.
Руки обычно рекомендуется мыть. Но дело не в этом. Для прикладных задач используется соответствующий математический аппарат - там, где это уместно. И им нужно уметь пользоваться. Точка. А задач на свете много.
Отлично.
Декларируется, простите, кем?
Если Вы изучали математическую статистику хотя бы пару семестров, то , возможно, вспомните любую декларацию из соответствующего учебника и приведёте этот пример. Мне никакие декларации такого сорта не попадались.
Возможно, другие участники дискуссии с подобным сталкивались.
Возможно. И в науке такое бывает. А на практике - еще чаще. В этом месте выше я предлагал Вам отделить мух от котлет. Манипулировать и фальсифицировать можно чем угодно и всё что угодно. Была бы цель.
Нет, отнюдь - я удивился, почему Вы сами это не предложили - сразу после выводов, что с данными, результатами и выводами можно делать всё, что заблагорассудится.
Если Вы так не считаете - замечательно.
См. выше. А неадекватно вообще ничем не нужно пользоваться. У всего есть границы применимости.
Они практически все чужие, и Вы ими пользуетесь много раз в день, даже об это не зная. Какими-то - круглосуточно.
Но пока не вижу проблемы. Не нравятся чужие исследования - делайте свои. И приведите детали того, что и как Вы делали. Другие посмотрят и оценят.
Вы уверены, что - "свара" - подходящее слово для описания дискуссии в этой ветке?
Большие данные не являются сами по себе статистикой.
За статистику часто могут выдавать аналитику, а интерпретация аналитики делает ошибку еще большей.
В основе статистике должны быть цели. На основании целей можно ставить задачи. На основе задач делать исследования.
Минимально подходящими могут быть исследования реальной жизни и их последующий анализ - какие решения помогут достичь намеченных целей.
Более подходящими являются исследования реальной жизни с более глубоким погружением, основанным на импатии. Анализ таких находок позволяет находить самые выигрышные решения.
Данные вышеуказанных исследований и являются статистикой по достижению определенных целей.
Специалисты, обладающие эмпатией и одновременно профессионализмом в исследуемой теме - большая редкость.
Эту задачу можно решить использованием разных специалистов, обладающих нужными качествами.
Но, сегодня я наблюдаю еще проблему у айтишников, которым присуща самостийность - даже при наличии подходящих исследований логика плюс эмпатия - требуются усилия, чтобы доказать разработчикам что именно нужно делать.
В стандартах Тойоты например такого не было - там изначально все функциональные подразделения действовали по единой архитектуре и режиссуре(управлению).
Так что в связи с кризисом управления нужно придумывать что то новое и креативное по развитию совместных коллективных взаимодействий.
Уверенность не самая сильная моя черта, обычно я во всем сомневаюсь
По-моему, на такое определение похожа именно ваша тональность общения. Например:
"Почему бы не сузить тему и не говорить о том, в чём автор лучше ориентируется"
"не делайте никаких выводов. Вам никакая статистика не нужна"
"Странно, что автор не приводит примеры корреляции чего угодно с лунными фазами"
"выводы были сделан заранее, автор не любит цифры, крайне далек от статистики (любой) как дисциплины"
"Очередной текст на новую для Вас тему"
"Заявка на будущее, как уже предлагалось ранее - напишите о разведении папайи"
Какую практическую ценность несет эта беседа? Вы считаете, что разбираетесь в теме лучше меня. Прекрасно, когда я пишу о чем-то, надеюсь что в комментарии придут эксперты и дополнят, покажут примеры, кейсы, возможно опровергнут -- но полезно. Применимо
Вы же (не только вы, тут еще есть специалисты) легко переходите на личности, чего-то требуете, в чем-то обвиняете
Походя согласившись кстати с основным содержанием статьи:
"Theranos - в чистом виде обман и подделка результатов. Доказано"
"Буквально всё можно сделать неправильно"
"Возможно. И в науке такое бывает. А на практике - еще чаще"
Да ) Именно так. Но скучно спорить с тем, что доказано и бывает еще чаще. Гораздо интереснее наехать на автора лично, перевести стрелки на другой ракурс и там уже от души бичевать -- но аккуратно, общими словами. Чтобы случайно не прозвучало чего-нибудь полезного
А могло бы
Вы можете рассказать о том, как эффективнее проверять чужие статистические исследования, по каким критериям и маркерам. "Они практически все чужие", это вы сказали. И я сказал, выше в публикации. Иии...
Мои рекомендации: проверяйте слегка параноидально, потому что статистика и поддельная статистика внешне выглядят одинаково
Ваши рекомендации: давайте отменим все науки, расскажите о папайе
Вот это слегка смущает. В остальном наверное нормально, тут дискуссии именно так и проходят )
Уважаемый Евгений,
Главная моя претензия в том, что нынешний Росстат выдает свои материалы за статистику.
Хотя, судя по их методикам (часть я привел), там присутствуют колоссальные лакуны в исходных данных и сомнительные методики экстраполяции частных данных на огромные массивы.
Так вот, к статистике есть доверие, как к науке.
А к статистике "от Росстата" доверия маловато.
И в первую очередь усилиями самого Росстата.
Понял, спасибо.
Логика не вполне очевидна, но - мысль интересная. Обычно сначала глубоко изучают тему и затем пишут об этом текст для публичного или научного обсуждения, а не наоборот. Ваш выбор.
Если других целей у Вас - как у автора - нет, то почему бы не открыть ветку в форуме и честно спросить: есть такой вопрос, помогите разобраться, покажите примеры, нужна внешняя экспертиза.
Вы ошибаетесь. Ваша личность не обсуждается - только текст и комментарии.
Обвинять других в том, что они обвиняют Вас и что-то от Вас - автора - требуют в публичной дискуссии - нонсенс.
А вопросы по содержанию статьи и содержащимся в ней утверждениям Вы пока просто игнорируете.
Вы цитируете меня и именно эти несколько слов называете основным содержанием Вашей (!) статьи? Серьёзно?
Тогда почему бы не поменять название на "Примеры фальсификаций и мошенничества в науке и исследованиях. Из зала суда.".
Вы видите людей буквально насквозь. См. выше.
Еще одно свидетельство полного непонимания предмета обсуждения. К сожалению.
Рассказать кому именно? Если Вам - см. выше о ветке в Форуме. Больше такой вопрос никто не задавал.
Но, в общем, для ловли блох нужна специальная подготовка, иногда многолетняя.
Например, музыкальный слух и память для оценки правильности исполнения. Без слуха такое вряд ли возможно. Хотя можно оценить внешний вид исполнителя. Но оценить нюансы, например, композиторского, дирижёрского или вокального мастерства обычно предлагается тем, кто мог бы это сделать.
Или, если история картины известна, то любой отличит копию от оригинала - зная, где находится оригинал. А если истории нет, то обыватель технически не может распознать подделку - если это именно она. Нужны специальные методы и оборудование и глубокие знания техники работ этого периода, этой страны и этого художника, включая, например, лабораторные анализы использованных красок и холста.
Примерно так же обстоит с проверкой и перепроверкой научных и прочих исследований. Нужно быть специалистом в этой теме.
Это просто факт. Статистика собирается и развивается с научной точки зрения столетия, и новые исследования выполняются каждый день практически во всех отраслях и областях.
Что Вас в этом так сильно смущает? Что заведомо плохого в этом слове, кроме констатации того, что у исследования другие авторы, а не Вы?
Выше уже предлагалось: не доверяете чему-то - не пользуйтесь.
Мы же не о визуальном сходстве. Надеюсь.
Я уже всё понял и не буду снова предлагать в следующий раз написать о разведении папайи. Пишите о квантовой физике. Или о колонизации планет. Или снова о статистике, если Вам понравилась тема.
При всем уважении к сообществу, навскидку не помню здесь научных и почти не помню полезных в бизнесовом плане обсуждений. Для сравнения как это происходило например на известном туристическом форуме:
Кто-то пишет что едет или съездил или просто интересуется -- ему накидывают явки, пароли, расписания, визовые правила, лайфхаки, фото, видео, вписки, гидов, помощь, риски. Готовый детализированный актуальный план действий, применительно к запросу. А потом годами его актуализируют для новых читателей
Здесь все выглядит вот так. Несколько страниц комментариев с попыткой докопаться ) Ноль полезных советов с вашей стороны. Туманные намеки на то, что вы их полны. Но делиться видимо не будете. Про статистику есть чего рассказать? Говорите что да. Расскажете?
У меня нет такой цели. Обсуждения нужны вам. Не вам лично, аудитории в широком смысле
Моя задача, гм миссия если выражаться высокопарно -- показать тему с нового (sic!) ракурса. С необычного, оригинального, небанального. Что как раз и создает почву для обсуждений, в которых идеально должны появляться другие свежие мысли (что иногда к счастью происходит) и полезные факты (вот здесь все сложно, как правило нет)
Публикации в духе 2+2=4 смысла не имеют. За короткий текст принести живительный свет знаний нереально. Все и так знакомы с арифметикой, в любой сфере. А даже вдруг нет, таблица умножения гуглится за минуту
Оригинальные трактовки в куда большем дефиците. Это настолько сложнее, что даже у меня получается не всегда (самокритика мой конек), и приходится разбавлять шутками. В ЭТОМ можно упрекнуть, а не в том что опять не рассказал весь курс теории там, где она нафиг не нужна и куда apriori не поместится
Это вы меня процитировали (кидаются друг в друга помидорами, в рамках деловой дискуссии разумеется)
Я привел в статье примеры основной мысли. Вы их подтвердили. Я об этом вам напомнил, чтобы показать что реальных расхождений по публикации у нас похоже нет
Просто вас раздражает, что я не написал о статистике так, как вы могли бы, но не станете ) Это серьезная проблема, но не готов признать ее своей
"Люди, будьте бдительны.." - это статистика ))
Кстати, автор оригинального заявления (Юлиус Фучик) почему-то не потрудился обосновать "обвинение" - и не потому, что это был "Репортаж с петлей на шее", но потому что речь шла не об обвинениях, а о предупреждении.
В нашем случае - о здоровом скептицизме. От себя добавлю, что демонстрация цифирей - это шикарный способ переложить ответственность на исследователей. Когда "правильный ответ" известен, подогнать цифирь способны, к сожалению, не только двоечники
а про математику - да, но в меру...