Big Data: как отличить важные данные от неважных?

Если вас терзает вопрос о том, как исследовать большие потоки данных, то Джон Тиммерман из компании Teradata – тот самый человек, с которым вы можете поделиться наболевшим. У него редкая для российского бизнеса должность: Global Industry Evangelist. Это значит, что работа Джона состоит в том, чтобы смотреть в будущее, видеть больше и дальше других, и объяснять аудитории, что именно ее ждет. Big Data в понимании Джона означает не «много данных», но особый тип структуры данных, когда сведения коррелированы друг с другом, но связь эта неоднопланова. Изучение этих данных – нетривиальная задача для менеджмента: их надо исследовать, потому что они могут содержать в себе очень ценную информацию для бизнеса. Или не содержать – в этом случае вы должны быть готовы к тому, что зря потратите деньги на расчеты. Но вы не узнаете это, пока не попробуете:). Впрочем, результативность исследований зависит от того, как вы ставите цели и какие инструменты используете.

Executive.ru: Выражение Big Data («Большие данные») стало весьма распространенным. Какие, на ваш взгляд, данные мы можем считать «большими»?

Джон Тиммерман: Из всех терминов на современном рынке термин «Большие данные», пожалуй, самый некорректный. Я предпочитаю использовать термины «неструктурированные» или «мультиструктурированные» данные, потому что речь в действительности идет не о фактическом объеме данных, а об их структуре или внутренних отношениях. Рассмотрим, например, термин «интегрированные данные о клиенте». В общем случае, мы создали бы схему, определяющую клиента, а также набор атрибутов этого клиента, которые хранятся вместе с записью о клиенте на основе каких-то установленных взаимоотношений. Эти атрибуты могут включать, например, номер счета, контактную информацию, историю транзакций, историю общения, демографические данные, финансовые модели, маркетинговый кластер и т. д. Вся эта информация имеет некую распознаваемую связь с клиентом и, как правило, хранится в реляционной базе данных. Но также существуют данные, которые в настоящее время являются неструктурированными или мультиструктурированными, и для которых нам еще неизвестны все возможные отношения.

Отличные примеры — подробные записи о телефонных разговорах, аудиозаписи и стенограммы звонков в службу поддержки, файлы изображений, видеофайлы, звуковые файлы, данные датчиков, веб-журналы и теги, которые просто еще не были связаны с какими-либо известными отношениями. Могут ли некоторые из этих файлов и источников быть большого размера? Безусловно. Но мы называем их «большими» не из-за размера. Мы называем их так из-за особой структуры и отношений, которые существуют в этих данных.

Executive.ru: В одном из интервью вы сказали, что «большие данные» – не новое явление. Если так, в каком виде эти данные собирались и изучались прежде?

Д.Т.: Я думаю, «Big Data» — всего лишь модное словечко для явления, которое мы наблюдаем уже много лет... и сегодня у нас, наконец, появились лучшие способы хранения, управления и анализа этих источников и типов данных, которые помогают обнаруживать новые отношения, закономерности и связи. Мы использовали анализ тропов (от греч. tropos – поворот – слово или оборот речи, употребленные в переносном значении – Executive.ru) на протяжении десятилетий. Точно так же, в течение многих лет мы собирали стенограммы и записи звонков в службу поддержки. Мы всегда сохраняли подробные записи о голосовых вызовах и веб-журналы. До недавнего времени у нас просто не было собирательного понятия для всех этих мультиструктурированных данных. Что на самом деле ново, так это распространение разнообразных стандартизированных «песочниц» (средств обнаружения), которые помогают последовательно и с высокой повторяемостью обнаруживать значимые отношения во всех этих данных без помощи отряда аналитиков.

Executive.ru: Человечество генерирует все больше и больше данных. У вас есть прогноз, сколько данных оно будет создавать, например, через десять лет?

Д.Т.: Как вы, наверное, знаете, компания Teradata уже давно создает решения, позволяющие управлять огромными объемами данных и последовательно выполнять бизнес-анализ самых различных видов данных из множества источников в масштабе предприятия. Вместо того чтобы прогнозировать, когда именно данные превысят определенный уровень, мы всегда старались выходить далеко за пределы прогнозов. Когда 25 лет назад я начал работать в Teradata, люди спрашивали, откуда взялось такое название – Teradata... ведь никому никогда не понадобится терабайт информации. Теперь у меня дома есть терабайтный диск с резервными копиями одних только фотографий с моей цифровой камеры. У нас есть много клиентов, которые уже вступили в клуб «мультипетабайтеров». Мы разработали архитектуру, которая позволяет обрабатывать чрезвычайно большие объемы данных сегодня и позволит делать это в не столь отдаленном будущем. У меня есть очень и очень расплывчатый ответ на вашу просьбу спрогнозировать, сколько данных человечество создаст через 10 лет. Астрономы предсказывают, что в следующем десятилетии один телескоп SKA (Square Kilometre Array с матрицей площадью 1 кв. км.) будет обрабатывать и анализировать более 10 петабайт данных в час... или 1 эксабайт каждые четыре дня. Я сомневаюсь, что население в более чем 7 млрд человек с целым набором цифровых датчиков и устройств будет создавать меньше данных. Хотя, безусловно, не все маркетинговые компании будут вынуждены собирать и анализировать данные о клиентах и бизнес-данные в таких астрономических масштабах, нетрудно представить, что лидеры отрасли и дальновидные компании уверенно достигнут рубежа в сотни эксабайт управляемых данных.

Executive.ru: А сколько данных в потоке, создаваемом рынком, будут лишними или невостребованными?

Д.Т.: Множество факторов определяет долю того, что является лишним или ненужным в больших данных, я слышал оценки, значительно превышающие 90% — однако это очень сильно зависит от набора данных. Некоторые наборы больших данных даже близко не содержат такой доли лишних или ненужных данных, но вы не узнаете этого, пока не выполните ряд действий по обнаружению и не определите, какие значимые данные на самом деле присутствуют в конкретном наборе. Опять же, количество данных не так важно, как закономерности и аналогии, которые могут быть найдены с помощью аналитики и помогут раскрыть действительную ценность всех данных. И то, что именно вы считаете необходимым или ценным, будет зависеть от вашей бизнес-стратегии использования данных в маркетинге. Конечно, как раз тут абсолютно необходимы две вещи: раннее обнаружение в рамках нескольких моделей и размерностей и гибкая и расширяемая аналитическая среда больших данных. Поскольку данные могут содержать много «белого шума», важно иметь возможность быстро выполнять различные операции обнаружения данных, чтобы можно было быстро выяснить, что следует сохранять и анализировать в первую очередь. Затем, поскольку размеры и сложность этих сред обработки данных могут резко изменяться, нужна среда больших данных, достаточно гибкая и расширяемая, чтобы приспосабливаться к вашим постоянно изменяющимся требованиям.

Executive.ru: Это ставит менеджмент перед очень трудной задачей: компания не может определить ценность некого объема данных до тех пор, пока она их не исследовала. В свою очередь, она не может бесконечно исследовать «на всякий случай» большие объемы данных, потому что аналитика – дорогое удовольствие. Как ей быть?

Д.Т.: В этом состоит вся суть среды обнаружения больших данных — с ее помощью можно определить, какие данные необходимо собирать и какими из них необходимо управлять. Без среды обнаружения вы идете вслепую и, вероятно, тратите слишком много денег на аналитику, не достигая сколько-нибудь ощутимого прогресса в повышении качества обслуживания клиентов. В конце концов, разве не для этого мы все это затеяли? Не для того ли, чтобы понять, как мы можем лучше служить человеку? По словам моего друга Стивена Бробста, главного технического директора Teradata, «иногда эта отрасль напоминает шестилетних детей, играющих в футбол... все сосредоточены на одном мяче... и бесцельно гоняют этот мяч по всему полю. У нас не получается сосредоточиться на мотивации и стратегии, на позиционировании и исполнении. Конечно, все принимают участие, и полны энтузиазма, и носятся как сумасшедшие... но не работают как слаженная команда».

Executive.ru: В публикациях вы используете термин Integrated Marketing Management? Какой смысл вы вкладываете в это понятие?

Д.Т.: Значимость интегрированного управления маркетингом двояка. Ее можно рассматривать с точки зрения маркетингового процесса и с точки зрения непрерывности отношений. С точки зрения маркетингового процесса, чем более интегрированы все движущиеся части маркетинговой организации, тем лучше я могу привести программы и расходы в соответствие со стратегическими инициативами и бюджетами. Я вижу наиболее экономически эффективный способ быстро запускать программы для клиентов в различных каналах, используя общие компоненты, рабочие процессы и рекламные материалы.

С точки зрения непрерывности отношений, чем лучше интегрированы каналы, продукты и предложения, тем больше преимуществ получат мои клиенты благодаря согласованным возможностям и непрерывности процессов в рамках всех каналов продаж на моих предприятиях, а не только некоторых из каналов взаимодействия с клиентами. Интегрированное управление маркетингом приносит выгоду как компании, так и ее клиентам.

Executive.ru: Какую цель в связи с этим должен ставить маркетолог, приступая к исследованиям? Как он должен формулировать, что именно хочет найти?

Д.Т.: Цель состоит в поиске новых шаблонов, новых моделей поведения, новых подходов и новых рычагов влияния. С помощью механизмов обнаружения они находят большие данные для получения полезных выводов, которые можно использовать для лучшего понимания бизнеса, поведения потребителей и атрибутов, которые могут оказывать влияние или указывать на вероятность каких-то действий. После процесса обнаружения запускается процесс автоматизации выявления наличия конкретного показателя. В ходе комплексного процесса обнаружения вовсе не редкость, когда предварительная гипотеза опровергается или обнаруживается что-то совершенно непредвиденное (если только ваш процесс не достаточно обширен, чтобы обнаруживать аномалии и резко отклоняющиеся значения). В области маркетинга мы ставим такой вопрос: «Что бы вы сделали, если бы знали?». Он относится к любому вопросу, который может задать маркетолог, полагая, что в данных есть ответы, которые помогут принимать более осведомленные маркетинговые решения.

Executive.ru: Вы можете привести примеры, когда маркетологи искали одно, а нашли нечто другое?

Д.Т.: Мне сразу вспомнился один из наших клиентов из сферы финансовых услуг. В их компании проводили исследование каналов входа. Инициаторы исследования хотели выйти за рамки простого и привычного создания отчетов об атрибуции по последнему клику. Они предположили, что заметное снижение коэффициента реагирования на одной из веб-страниц было связано с неудачным дизайном или размещением блока призыва к действию на лэндинговой странице. А на самом деле они обнаружили связь между наличием определенного фрагмента динамической рекламы и снижением коэффициента реагирования. То есть проблема была не в визуальном оформлении, а в самом контенте, в управлении им.

Executive.ru: Какие приложения маркетологи могут использовать для исследования «больших данных»?

Д.Т.: Полагаю, я не могу быть беспристрастным, с учетом того, где я проработал последние 25 лет, но я действительно верю, что наши клиенты получат максимальную выгоду, выбрав для обнаружения больших данных решение Teradata Aster. Существуют также механизмы для многоканального маркетинга, которые предназначены для интеграции анализа клиентов, сегментации и управления входящими и исходящими связями по всем каналам экосистемы клиентов. Наконец, есть приложения для принятия решений о лучшем предложении в режиме онлайн, а также для оценки и оптимизации предложений для всех взаимодействий с клиентами в режиме реального времени.

Executive.ru: Какое содержание вы вкладываете в термин Data-Driven Marketing?

Д.Т.: Маркетинг на основе данных – подход, позволяющий маркетологам использовать глубокий анализ данных о своих клиентах, чтобы точно направлять маркетинговые усилия. В рамках этого подхода лучшие данные должны определять и обосновывать все ваши маркетинговые решения. Какие клиенты являются самым ценными или выгодными? Какие клиенты обладают наибольшим потенциалом роста? Какие кампании были наиболее успешными? Какие предложения лучше всего подходят именно для этого клиента? На каком этапе наших отношений находится клиент, и как я могу лучше всего его обслуживать? На что я трачу большую часть своих денег? Что работает хорошо? Что самое лучшее я могу сказать этому клиенту прямо сейчас? Для точных ответов на все эти вопросы нужны маркетинговые данные. Чем лучше вы сможете интегрировать поток маркетинговых данных и данных о клиентах в свои процессы и инициативы, тем лучше вы сможете автоматизировать и направлять свою организацию, и тем более последовательное и индивидуальное обслуживание вы сможете предлагать своим клиентам.

Executive.ru: Каким будет маркетинг через 25 лет?

Д.Т.: Я уже говорил в своем блоге, каким будет маркетинг в 2020 году, но я понятия не имею, как это будет выглядеть через 25 лет. Через 25 лет мне будет 75, и я уйду на пенсию. Но я могу спросить у моего сына. Он будет оказывать большее влияние на будущее маркетинга, чем я!

Впервые интервью было опубликовано на Executive.ru 29 июня 2015 года

Расскажите коллегам:
Комментарии
Адм. директор, Санкт-Петербург

Как компании отличить важные данные от неважных?
Пожалуй - для начала потребуется признать, что есть данные неважные!
А это ой как сложно!

Аналитик, Украина

''Как компании отличить важные данные от неважных?''
1. Выбрать цели бизнеса достижение которых существенно зависит от наличия конкретной информации.
Например:
Цель - удерживать потенциально ценных клиентов
Необходимая информация - наборы характеристик наиболее ценных клиентов (анкетные данные, поведенческие особенности...)
2. Оценить потенциальный финансовый эффект от получения и использования такой информации.
Например: на основе бэнчмарков по ключевым показателям эффективности подсчитать ''цену проблемы''/потенциальную выгоду.
3. Оценить качество и количество данных из которых теоритиески возможно извлечь такую информацию.
4. Оценить вероятность и сложность извлечения необходимой информации.
5. Провалидировать наборы данных по вышеупомянутым критериям.

Опредлив потенциально ценные данные важно монетизировать их ценность! ))
Для этого и существует глубокая аналитика.

Аналитик, Украина

В опросе ''Ваша компания работает с big data?'' (на этой странице под статьей)
Да, и весьма эффективно - ответили 19% !!!

Татьяна Соколова Татьяна Соколова Директор по развитию, Москва

Возможно, следовало дать более точный Заголовок к статье. Тема интересна только IT-специалистам.
Т.к. остальные ТОРы (продажи, маркетинг) мыслят уже устоявшимися показателями оценки:-)...

В каждом секторе (продажи, финансы, кадровое управление) свой набор оценочных показателей:-)

1) Есть обязательные(фиксирвоанный список) экономические показатели для учёта (МСФО).

2) А есть внутренние оценки (такие показатели тоже практически схожи в разных компаниях).

Например. ''КПЧ'' (количество позиций в чеке) сканируется в большинстве розничных сетей;
а ''АКБ'' (активная клиентская база) учитывается в большнстве Оптовых компаний.

[COLOR=blue=blue][COLOR=blue=blue]
Отреагировала на рассылку, не совсем понятно зачем такую Узкую IT-тему давать в массовую рассылку.[/COLOR][/COLOR]

Аналитик, Украина
Татьяна Соколова пишет: Тема интересна только IT-специалистам. Т.к. остальные ТОРы (продажи, маркетинг) мыслят уже устоявшимися показателями оценки:-)...
Интересно что мешает ТОРам по продажам и маркетигу выйти из зоны комфорта ради лучших результатов? Тут ведь суть не в показателях совсем. Суть в том, что эти показатели можно улучшить в каждом секторе с помощью глубокого анализа данных. Тоесть не смотреть на ''КПЧ'' и предпологать, а понять в каких случаях ''КПЧ'' выше и принимать более обоснованные управленческие решения. Кажется: а давайте отсортируем все чеки по ''КПЧ'' и постотрим где там больше а где меньше... Не тут то было) Ведь тут не может быть какого-то одного давлеющего фактора, не говоря уже про объемы данных которые нужно обработать. Скорее будет что-то вроде набора факторов (время, день недели, торг.точка, акции...) с ''весами''. А вот тут уже нужны IT-специалисты, как исполнители задач поставленных ТОРами. А потом возникнет вопрос: А что с этим делать? Ответ в целом такой: если мы знаем в каких случаях ''КПЧ'' выше - давайте создавать эти случаи, стимулировать их. Тут опять нужны IT-шники. Пусть ''считают'' (по сути прогнозируют) как изменится ''КПЧ'' если мы проведем акцию ''А'' в день ''В'' в точке ''С''. Это реально. Только это почему то ''тема интересна только IT-шникам''. Я считаю что для решения важных бизнес-задач нужна синнергия опыта и навыков разных специалистов, тогда и результаты будут...
Виктор Шкурин +340 Виктор Шкурин Директор по продажам, Санкт-Петербург
''Скорее будет что-то вроде набора факторов (время, день недели, торг.точка, акции...) с ''весами''. А вот тут уже нужны IT-специалисты, как исполнители задач поставленных ТОРами. '' Это задача мат.статистики и ИНТЕРПРЕТИ́РОВАНИЯ результатов, а специалисты IT (в общем случае) ну совершенно не причем, только для воплощения в код готовых и обкатанных алгоритмов обработки данных. ''Тут опять нужны IT-шники. Пусть ''считают'' (по сути прогнозируют) как изменится ''КПЧ'' если мы проведем акцию ''А'' в день ''В'' в точке ''С'''' - и опять таки - при чем тут IT?
Аналитик, Украина
Виктор Шкурин пишет: специалисты IT (в общем случае) ну совершенно не причем, только для воплощения в код готовых и обкатанных алгоритмов обработки данных
IT-специалисты - нужны не только для ''воплощения в код готовых и обкатанных алгоритмов''. Есть еще ETL задачи, интеграция решения в ИС и прочее. Хотя действительно, тут речь идет скорее о даталогистах которые по сути являются и математиками и IT-специалистами. В любом случае, для решения конткретных бизес-задач с помощью глубокого анализа данных необходима работа команды. Нужен бизнес-анализ, мат.моделирование, программирование... Но для начала нужно само понимание того что данные в ИС компании - это ресурс! Ресурс который при правильном использовании может давать новую полезную информацию для принятия эффективных управленческих решений. Тут Вы со мной согласны Виктор?
Креативный директор, Москва
Татьяна Соколова пишет: Тема интересна только IT-специалистам.
Сомневаюсь. Тема гораздо шире, чем собственно функционал IT. Не IT-отдел решает, что важно, а что не важно для бизнеса.
Председатель совета директоров, Москва
Андрей Семеркин пишет: ...Не IT-отдел решает, что важно, а что не важно для бизнеса...
Китайская стратегия: ''Главное в первую очередь''. А вот понимать, что на данный момент главное это и есть самое главное. Причем искусство понимания этого главного первично и опять же надо понимать, что главное на определенном историческом отрезке. Например, первые 3 года, как правило, для любого бизнеса, главное это выжить. Вот и надо это решать в первую очередь, а большие массивы данных должны анализироваться именно с этих позиций. Именно направление анализа и должно задаваться аналитикам и исходя из этого ставиться задачи IT. Конечно это очень упрощенный подход, но он работает и имеет право на жизнь...
Researcher, Москва

Уважаемые соучастники!

Мне почему то кажется. что многие не обратили внимание на самое, подчеркиваю, самое важное что сказал автор , цитата:
[COLOR=blue=blue]''Я предпочитаю использовать термины «неструктурированные» или «мультиструктурированные» данные, потому что речь в действительности идет не о фактическом объеме данных, а об их структуре или внутренних отношениях...'' [/COLOR]

Это следует выделять по нескольким моментам:
1. Слабоструктурированные, слабосвязанные данные, ''грязные'' данные не могут и не должны обрабатываться традиционными методами вычислительной математики. Требуются новые алгоритмы, методы...
2. Современная экономика и развитие общества все больше становится чувствительно к ''вторичным'' связям и зависимостям, которые как раз ''прячутся'' в ''больших данных''.

Проблема ''обработки'' больших данных разделяется на два потока.
1. Разработка алгоритмов и методов
2. Бизнес анализ возможностей...

Программисты, IT, на этих этапах имеют очень опосредованное влияние.

Главное, на мой взгляд, и я это увидел в статье, это работа бизнес-аналитиков с хорошим математическим образованием для ДЕЙСТВИТЕЛЬНО выявления что же ВАЖНО на данные момент для бизнеса. И что будет важно завтра и послезавтра...
Продавцы, в лучшем смысле этого слова, маркетологи, стратеги ... на мой взгляд, являются потребителями BIG Data.

Оставлять комментарии могут только зарегистрированные пользователи
Статью прочитали
Обсуждение статей
Все комментарии
Дискуссии
Все дискуссии
HR-новости
Исследование: чего ждут российские IT-специалисты от работодателей

Половина сотрудников в IT мечтают о гибриде, но большинство опрошенных вынуждены работать в офисе.

Предлагаемые в России зарплаты выросли на 25% за год

Быстрее всего зарплаты в 2024 году росли у водителей, сварщиков и промоутеров — в 1,5–2 раза.

90% работодателей готовы нанимать неопытных специалистов

Представители бизнеса считают, что перспективные кандидаты, готовые к обучению, могут стать настоящим активом для компании.

Половина россиян оказалась в состоянии выгорания к концу 2024 года

Наиболее распространенные симптомы выгорания — постоянное чувство усталости и раздражительность.