С самого момента возникновения человеческого общества, когда стало зарождаться то социальное зерно, которое трансформировалось позднее в многомерное социальное пространство, людей волновали вопросы взаимодействия индивидуумов в социуме. Вначале это могли быть зачаточные философские суждения о строении и функционировании различных составляющих общества, затем появились попытки построения примитивных описательных моделей, их классификация, своеобразным венцом теоретических описательных и объяснительных моделей может служить предложенная Парсонсом структурно-функциональная модель общества, которая на данный момент считается наиболее всеобъемлющей социологической теорией.
Таким образом, проблема анализа социальной информации, выявления социальных закономерностей, построения прогнозов развития общества всегда волновала людей. Она была зачастую просто жизненно необходима, и эта практическая необходимость направляла человеческую мысль в русло создания специальных механизмов обработки и анализа социальной информации. В 20-м веке практически параллельно развивались два фундаментальных направления анализа социальных процессов: количественные (статистические) и качественные методы.
Начнем с количественных методов. По мере развития таких разделов математики, как теория вероятности и математическая статистика, в распоряжении социологов-эмпириков оказывалось все большее число соответствующих инструментов анализа. Так, от простого подсчета голосов избирателей в процентах (49-«за», 51-«против»), переходили на корреляционный анализ (увязывая принятие или отклонения предложенной кандидатуры с полом, возрастом и т.д.), затем однофакторный или многофакторный дисперсионный анализ и т.д. Своеобразную «эволюцию» прошла и методика организации сбора эмпирического материала. От опросов, затем с повышением грамотности населения с раздачи анкет до сбора и анализа так называемых панельных данных (Panel Data Analysis), когда опрашивается до 10.000 (иногда и более респондентов, часто по всему миру) и появляется возможность сделать «срезы» ситуации по годам, по странам, по определенным критериям. Радует, что и в нашей стране в последнее десятилетие этому стали уделять значительное внимание. Появились как панельные данные, собранные по России (Российский мониторинг экономического положения и здоровья населения)[1], так и сравнительные исследования России с другими европейскими странами[2]
Конечно, это дело весьма финансово затратное и часто щепетильное т.к. при широких международных исследованиях возникают весьма специфические проблемы перевода одних систем измерений качества социальной жизни жителей одной страны в другую, приходится сравнивать и конвертировать величины, часто даже просто подбирая наиболее близкий возможный аналог.
В то время, как в России только стали проводить панельные исследования, ряд мировых лидеров социальных исследований (США, Германия и др.) стали внедрять новые методики сбора и новые технологии обработки данных. Одной из вершин статистического анализа (на данный момент) является методика Event History and Survival Analysis (EHA/SA), которую в весьма приблизительном варианте можно перевести как анализ истории событий, а также анализ произошедших и не произошедших (!) за определенный временной промежуток событий. Можно привести официальное определение (EHA/SA), данное в 1981 г. Миллером[3]: «это набор статистических методов для анализа положительных случайных переменных и их связей с другими переменными». Приведем пример сбора таких данных. Группа из 432 заключенных была выпущена на свободу из государственных тюрем штата Мэриленд, в течение года (а сведения собирались еженедельно) за ними велось открытое наблюдение. В частности учитывались такие характеристики, как наличие определенного уровня образования, была ли оказана помощь по социальной адаптации, был ли человек безработным или работал до заключения (В идеале должны быть учтены все значимые факторы или те, которые мы можем полагать таковыми при сборе и систематизации данных.). Цель наблюдения - посмотреть, произойдет ли за исследуемый период времени событие (event). Событием в данном случае считают наступление правонарушения и следующий за ним повторный арест. В базе данных тщательно фиксируется количество недель до наступления события, в данном случае повторного ареста бывшего заключенного (12 недель, 35 недель и т.д.). Либо же, если событие не произошло, то напротив идентификационного номера данного человека ставится цифра 52+, что означает, что в исследуемый период времени (1 год=52 недели) ожидаемое событие (повторные арест) не произошло. Анализ данных позволяет ответить на следующий вопрос: связано ли время между выходом из тюрьмы и последующим арестом, если таковой имеется, с уровнем образования, фактом оказания финансовой помощи, трудовой занятостью до первого ареста, а также является ли наступление события комбинацией одного, двух или всех факторов? [4]. Важной особенностью данной технологии является учет и анализ данных даже по тем событиям, которые не имели место в указанный период, что позволяет получать более целостную картину изучаемого социального процесса.
Такие исследования требуют очень больших финансовых затрат даже по сравнению с сбором обычных панельных данных, преимущественно на организацию сбора информации, но не менее важно наличие грамотных специалистов, хорошо владеющих методиками обработки собранных данных в EHA/SA.
Наиболее востребованными социологами на данный момент пакетами программ статистической обработки данных являются EXCEL, STATISTICA, SAS, SPSS, STATA.
Перейдем к качественным методам анализа данных социологического исследования. Хотелось бы особо отметить, что разрыв между западными социологическими школами и отечественными в сфере применения этих методов - минимален. В западной социологии существует устойчивая тенденция применения компьютерных программ и для анализа качественных данных. Принцип действия таких программ для обработки текстовых данных изначально был прост: создавалась база данных интервью, затем вводилось ключевое слово для поиска, например «взятка» и исследователь получал готовую схему употребления данного слова, как в отдельном интервью, так и в целом по базе данных. Как вариант употребления учитывается контекст, а также характеристики самого респондента. При больших объемах информационных данных система работает гораздо более эффективно, чем это возможно сделать одному исследователю, ищущему заданные сочетания и закономерности аналитически. В последние два десятилетия на рынке программных продуктов, предлагаемых для качественного анализа данных появилось много интересных новинок, такие как HyperRESEARCH, QDA Miner, MaxQDA и др. На последней мы хотели бы остановиться особо. Первая версия данной программы под названием MAX (которое затем образовало целое семейство программ Max) была разработана в 1989 году в Германии и впервые была представлена, как удобное средство для обработки текстовых файлов на выставке в Ганновере (Германия) в 1992 г., а в 1995 г. появилась ее англоязычная версия [5]. С тех пор данное программное обеспечение победно шествует по всему миру. Существует техническая возможность его применения и для анализа русскоязычных текстов. К сожалению, авторам статьи ни разу не попадались ссылки социологов-эмпириков на использование этого или любого другого аналогичного программного продукта в России.
Необходимо отметить, что за последнее столетие социология сделала мощный рывок, как в развитии самих методов, так и в их применении, сократился, а иногда и полностью ликвидирован, разрыв между теоретиками-методологами и эмпириками, когда метод, возникнув в недрах одной науки (математики) плавно перетекает в другие науки, как гуманитарного, так и естественно-научного цикла, наглядно демонстрируя прикладное значение науки. Количественные и качественные ветви анализа социальной информации развивались параллельно, но в современном мире ни одной из них нельзя отдать приоритет т.к. и количественный и качественные методы имеют как сильные стороны, так и ограничения. Например, существенным ограничением любой статистической программы является невозможность «внятного» прогнозирования социального процесса. Мы можем сказать, что было, в лучшем случае, что есть, но предсказать в каком направлении будет развиваться интересуемое нас явление мы, к сожалению, не можем. Срез социальной информации достаточно жестко фиксирован в определенный момент времени в прошлом. Любые предсказания останутся на совести аналитика, впрочем, также как и интерпретация данных статистических расчетов. Наличие неоднородных и сложных взаимосвязей неизбежно присутствующих в социальных явлениях нельзя раскрыть с помощью чисто статистических подходов, основанных, главным образом, на концепции усреднения по выборке, которая к тому же должна быть представительной, что не всегда возможно. Статистические методы не позволяют использовать качественную информацию, если ее невозможно строго формализовать. Формализованная же информация неизбежно теряет эмпирическую контрастность. Качественные же данные не могут дать целостную картину рассматриваемого явления, уходя от массовости и сосредотачиваясь на отдельном случае или интересуемой группе событий, конкретном аспекте. Возможности лаконичности выражения выводов в этом случае весьма ограничены и это есть ограничения, налагаемые самим методологическим подходом.
Вся история развития и совершенствования методов этих двух направлений приходит к закономерному этапу - попытке соединить достоинства обоих методов и избежать (или по крайней мере свести к минимуму) недостатков. Тем более что прогрессирование научных технологий последних десятилетий позволяет нам это сделать. Наиболее с этой точки зрения перспективными, по нашему мнению, являются средства Data Mining, в которые в частности входят и более известные в научной литературе искусственные нейронные сети (ИНС). Среди других средств Data Mining можно отметить деревья решений (decision trees) и самоорганизующиеся карты Кохонена (Cohonen self-organizing maps). Средства Data Mining позволяют одновременно анализировать разнородные (количественные и качественные) данные, неполные («непредставительные» с точки зрения статистических методов) выборки, анализировать сильно нелинейные связи. За рубежом эти методы уже более десятилетия применяются в экономике, финансах, страховом деле [6]. В последнее время и в России появились работы направленные на использование средств Data Mining при построении моделей экономических систем [7].
Как нам представляется, применение средств Data Mining является логичным шагом в развитии методов анализа социальной информации. Известный математик Г.Пятецкий-Шапиро предложил такое определение: «Data Mining – это процесс обнаружения в сырых данных ранее не известных, не тривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности»[8]. Средства Data Mining все чаще стали включаться в пакеты статистических программ, такие крупные игроки рынка программного статистического обеспечения, как SPSS и STATA уже включили их в свои последние версии. Большой удачей российской науки является создание собственных прикладных программных пакетов средств Data Mining для организации исследований, одним из представителей которых является система Deductor (Дедуктор)[9]. Deductor является аналитической платформой, позволяющей создавать законченные прикладные решения. Реализованные в Deductor средства Data Mining позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического построения моделей изучаемого явления и визуализации полученных результатов. Deductor предоставляет аналитикам средства, необходимые для решения самых разнообразных аналитических задач: сегментация, поиск закономерностей, создание вычислительных моделей явления, прогнозирование.
В последнее время, многие российские ученые прямо указывают на преимущества использования средств Data Mining применительно к анализу социальных процессов, но до сих пор в нашей стране крайне мало публикаций по этой тематике, исследования с применением этих технологий - единичны [10].
В нашей работе, впервые в практике социальных исследований в России, средства Data Mining были применены для исследования семейных отношений.
Семья – пример сложной социальной системы. Образование и распад семьи являются одними из наиболее распространенных социальных явлений. По данным социологических опросов, семью считают самой значимой сферой жизни и молодые и пожилые, и богатые и бедные. Поэтому задачи исследования семейных отношений являются очень важными. В частности, очень важными являются задачи определения условий образования долговременной («счастливой») семьи, диагностики существующих семейных отношений, определения причин возникновения кризиса брака, разработки мер предотвращения кризиса брака. Но в настоящее время не существуют количественных критериев определения перспектив будущего брака и диагностики существующего брака, отсутствуют многофакторные количественные модели семейных отношений. Главной причиной является сложность семейных отношений, в которых переплетаются психофизиологические, социальные и экономические факторы. С этой точки зрения Data Mining (DM) являются перспективными методами моделирования, так как они позволяют одновременно анализировать как количественные, так и качественные данные, получать многофакторные вычислительные модели, в том числе и на основе неполных данных об исследуемой системе.
Работа посвящена построению количественных моделей семейных отношений, позволяющих прогнозировать продолжительность брака как существующих, так и только образующихся или планируемых семей. Эти модели позволяют вырабатывать также управляющие решения, способствующие увеличению (в общем случае – изменению) продолжительности брака.
Полученная автономная аналитическая платформа является новым продуктом. В основе его – искусственные нейронные сети и другие средства Data Mining, а также уникальная база данных по параметрам распавшихся и счастливых браков, которая собиралась в течение двух последних лет. В настоящее время она дополняется каждый день. Аналоги подобных аналитических платформ нам не известны.
Первоначально в задачи работы входило: разработка методологии и технологий применения DM при анализе данных о разведенных семьях, сбор данных о разведенных семьях и решение конкретной задачи построения количественных вычислительных моделей семейных отношений, приводящих к разводу. В ходе работы был создан сайт (http://www.chuvsu.ru/2008/proekt.html), на котором были размещены он-лайн анкеты-интервью для разведенных и «счастливых» семей, которые и позволяют в настоящее время постоянно пополнять данные и ставить новые задачи исследований семейных отношений.
При выполнении работы использовались данные опроса (интервью) разведенных супругов. Всего было использовано 140 анкет-интервью (на данный момент). Для анализа семейных отношений использовались следующие методы DM: корреляционный анализ, дерево решений, искусственные нейронные сети, самоорганизующиеся карты Кохонена. Основное внимание было уделено выявлению закономерностей в данных и построению количественных моделей разводящихся семей. Продолжительность брака (ПБ) была выбрана в качестве целевой функции. Выбор в качестве объекта именно разведенных семей был обусловлен тем, что в этом случае можно четко определить целевую функцию. В дальнейшем планируется использовать и другие целевые функции (удовлетворенность браком в целом, количество детей рожденных в браке).
Исследования собранных данных, их анализ включали в себя несколько этапов.
Первый этап – трансформация и очистка данных:
- корреляционный анализ – устранение незначащих факторов;
- замена данных.
Второй этап - Data Mining:
- дерево решений;
- самоорганизующиеся Карты Кохонена;
- нейросеть – многослойная нейронная сеть.
Деревья решений (decision trees) создают иерархическую структуру классифицирующих правил типа «ЕСЛИ… ТО…», имеющую вид дерева. Чтобы принять решение, к какому классу следует отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид «значение параметра А больше В?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня. Затем снова следует вопрос, связанный с соответствующим узлом, и т. д.
Искусственные нейронные сети (ИНС) представляют собой вычислительные структуры, принцип работы которых похож на принцип работы человеческого мозга. И в том и в другом случае сначала требуется «научить» сеть на примерах. Структурным элементом ИНС является элементарный преобразователь (процессор), называемый искусственным нейроном или просто нейроном. Нейроны сети связаны между собой различным образом.
Самоорганизующиеся карты (карты Кохонена) могут использоваться для решения таких задач, как моделирование, прогнозирование, поиск закономерностей в больших массивах данных, выявление наборов не зависимых признаков и сжатие информации. Алгоритм функционирования самоорганизующихся карт (Self Organizing Maps – SOM) представляет собой один из вариантов кластеризации многомерных векторов - алгоритм проецирования с сохранением топологического подобия. Обычно нейроны располагаются в узлах двумерной сетки с прямоугольными или шестиугольными ячейками. При этом, как было сказано выше, нейроны также взаимодействуют друг с другом. Величина этого взаимодействия определяется расстоянием между нейронами на карте.
Примеры некоторых результатов, иллюстрирующих возможности DM, представлены на рис. 1-5: метод корреляционного анализа (рис. 1), метод дерева решений (рис. 2), метод искусственных нейронных сетей (рис. 3 и 4), самоорганизующиеся карты Кохонена (рис. 5). Комментарии приведены под рисунками. Ряд иллюстраций, показывающих полученные при анализе семейных отношений результаты, приведены также в Приложении.
Рис. 1. Корреляционный анализ.
Метод корреляции чаще применяется для исключения незначимых факторов со степенью корреляции меньшей 0,300. Анализ результатов показывает, что для «первых браков» (когда у обоих супругов брак – первый) большую корреляцию с ПБ имеет факторы «на каком году брака возник 2 кризис», «число старших сестер у жены», «материальное благосостояние семьи перед разводом». Незначимым можно считать фактор: «венчались ли дополнительно в церкви»; остальные факторы можно считать значимыми в некоторой степени. Это еще раз подтверждает, что на семейные отношения влияют многие факторы и их надо учитывать при построении моделей семейных отношений.
Рис. 2. Экран модели семейных отношений (дерево решений)
Выходным параметром была ПБ. Показано, как метод дерева решений позволяет выработать «правила», которые определяют, при каких условиях ПБ будет меньше 10 лет, а при каких – больше 10 (число лет – границу «правил» можно задавать до анализа).
Рис. 4. Экран модели семейных отношений (искусственные нейронные сети).
Зависимость продолжительности брака от наличия насилия в семье.
Внизу рис. 4 указан график зависимости ПБ (для конкретной данной семьи) от наличия насилия в семье. Видно, что наличие или отсутствие насилия заметно влияет на продолжительность данного брака. Подобные графики могут быть получены и для других параметров, от которых зависит продолжительность брака (см. Приложения).
Рис. 5. Экран модели семейных отношений (графическое отображение результатов кластеризации с помощью самоорганизующихся карт Кохонена).
Особенностью самоорганизующихся карт Кохонена является возможность в общей системе данных найти подсистемы (кластеры), а затем уже выявлять существующие закономерности по отдельным кластерам.
Рис. 5 содержит в себе девять частей (диаграмм). В нижнем ряду первые две диаграммы слева наглядно показывают, что СКК разделили все семьи на два основных кластера: семьи, где у одного из супругов (в нашей базе данных – у мужа) была алкогольная зависимость, и семьи, где ее не было. Эти два кластера семей, соответственно, синий и красный, описываются разными закономерностями.
Полученные результаты:
- Создана автономная аналитическая платформа на основе средств Data Mining, способная прогнозировать продолжительность брака и вырабатывать «управляющие воздействия» с целью увеличения (в общем случае – изменения прогнозируемой продолжительности брака)
- Сайт, позволяющий регулярно обновлять базу данных и аналитическую платформу.
- Ожидаемые результаты:
- Набор автономных готовых к использованию аналитических платформ, помогающих решать различные вопросы семейной жизни (среди кого искать мужа, жену, что надо делать, чтобы брак был долгим). Они могут быть тиражированы и требуют при их использовании только элементарных знаний работы на ПК;
- клиентская база данных - база данных потребителей;
- увеличение числа 'счастливых' семей;
- уменьшение числа разводов.
- Анализ полученных результатов показывает, что средства DM при исследовании социальных явлений позволяют получать принципиально новые результаты при выявлении многофакторных зависимостей. Они позволяют построить вычислительные модели семейных отношений. Эти модели дают возможность не только определять (прогнозировать) продолжительность брака для людей, вступающих в брак, и для людей, живущих в настоящее время в браке, но и вырабатывать рекомендации (управленческие решения) для увеличения продолжительности брака.
Эти модели могут быть представлены в двух видах:
1) модели, предназначенные для специалистов в области DM;
2) модели, предназначенные для пользователей (неспециалистов). Первые модели позволяют менять сценарии анализа данных и строить свои версии моделей на основе своих данных. Вторые модели позволяют получать прогноз на основе своих данных без изменения сценария анализа данных и модели. В последнем случае работа пользователя не требуют никаких знаний, кроме знания основ работы на компьютере. Достаточно ввести свои данные о существующем или предполагаемом браке, и модель выдаст прогноз продолжительности брака. Подобрав значения факторов, обеспечивающие наибольшую продолжительность брака, можно определить, как надо выбирать будущего супруга или что надо изменить в существующем уже браке (выработать управляющие воздействия). Конечно, результаты анализа надо рассматривать только как советы и при принятии окончательных решений надо использовать собственный опыт. Нами разработаны готовые к использованию демонстрационные компьютерные платформы анализа и выдачи прогнозов и решений в области семейных отношений для различных случаев (до брака, в процессе брака, при поиске супруга). Они будут представлены на конференции и могут быть опробованы ее участниками.
В настоящее время работа продолжается в направлении сбора новых более полных данных о разведенных семьях, а также данных о «счастливых» семьях – продолжающихся браков.
На сайте: http://www.chuvsu.ru/2008/proekt.html размещены 4 вида анкет-интервью: анкета для разведенных, анкета для живущих в браке, анкета для тех, кто собирается выйти замуж (жениться) и у кого есть претендент на эту «должность», анкета для тех, кто собирается выйти замуж (жениться) но претендента на эту «должность» нет. В анкетах содержится от 50 до 60 вопросов, которые затрагивают разные стороны семейной жизни. Эти анкеты могут быть заполнены в режиме он-лайн.
В целом, результаты работы могут быть использованы при проведении НИР социологических институтов, проведении различных социологических опросов населения, внедрены в работу социальных служб (разработка мер оказания помощи молодым семьям, мер социальной защиты института семьи в целом) и других заинтересованных организаций (например, брачные агентства). Результаты работы показывают также, что DM могут рассматриваться как перспективные методы при решении задач анализа и моделирования других социальных явлений, в частности, при анализе таких проблем, как подбор персонала (предупреждение быстрых «разводов» предприятия и работника), прием абитуриентов в вуз (прогнозирование будущей успеваемости абитуриентов, предотвращение кризисов в обучении). На наш взгляд интересным может быть внедрение средств DM в бизнес-структуры.
Приложение:
График зависимости ПБ от возраста невесты (для данного конкретного набора параметров супругов)
График зависимости ПБ от возраста жениха (для данного конкретного набора параметров супругов)
График зависимости ПБ от материального благосостояния семьи перед разводом
График зависимости ПБ от количества детей на момент развода
График зависимости ПБ от номера брака
График зависимости ПБ от наличия жилья у семьи
Семья жила в общежитии. ПБ = 7 лет. По графику видно, что наибольшая ПБ была бы при наличии собственной квартиры.
График зависимости ПБ от доверия мужа жене
График зависимости ПБ от степени ревнивости мужа
График зависимости ПБ от знака Зодиака жены (муж - телец)
График зависимости ПБ от знака Зодиака мужа (жена - рак)
График зависимости ПБ от года рождения жены по китайскому календарю (муж - кролик)
График зависимости ПБ от года рождения мужа по китайскому календарю (жена - дракон)
График зависимости ПБ от причины брака
[3] Miller, J (1981). Survival analysis. New York. Wiley
[4] Rossi, P.H., Berk R.A.&Lenihan K.J. (1980). Money, work, and crime: Experimental evidence. Academic Press New York.
[5] http://www.maxqda.com/about/history
[6] См например: Garson G. Neural Networks: An Introductory Guide for Social Scientists. N.C.: Nort Carolina Publ. 1998; Bainbridge W. Neural Network Models of Religious Belief//Sociological Perspectives, 1995, Vol 38, №4, С. 483-496.
[7] См.например: Макаров В.Л., Бахтизин А.Р., Бахтизина Н.В. GGE - модель социально-экономической системы России со встроенными нейронными сетями. - М., ЦЭМИ РАН, 2005.
[8] Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных:Data Mining, Visual Mining. Text Mining. OLAP. СПб.:БХВ-Петербург, 2008.
[10] Круглов В.В., Дли М.И. Применение аппарата нейронных сетей для анализа социологических данных // Социологические исследования. 2001, № 9, С. 112-114.
Интересная статья. Особенно необычна ''пила'' в ''Графике зависимости ПБ от года рождения жены по китайскому календарю (муж - кролик)'' Хотя немного данные по Тигру искаженны (возможно из-за специфики выборки)
Эти графики действительно интересны из-за ''пилы''. Я не верил в астрологию, но сейчас стал сомневаться - мб действительно что-то в ней есть.
Вопрос - стоит ли на этой платформе создавать брачное агентство, или кадровое агенство (подбор персонала, поиск работы).
Витя, Привет! большой объем работы. Сочувствую, усилия потрачены впустую. Такие вещи просчитать теоретически конечно можно, но придется очень подробно анализировать. Объем работы такой большой, что ее не целесообразность совершено очевидна. Пример Расцветка цветов и бабочек, конструкция нашего тела и так далее. Это результат усилий всех живущих на Земле живых существ. Конкурировать с таким естественным отбором и таким объемом мотивов поведения и информации по крайней мере глупо.
Еще раз Привет! Живу нормально. По утрам на заправке веником машу вместо зарядки. Правда через день и это занимает не более 30 минут. Получаю за этот позор 100 эвро в месяц. Но меня это совершенно не напрягает.
Заканчиваю строить свой дом. К осени Жилая пощадить будет чуть больше 400 м кв.
Из официальной науки ушел, причем давно в 85.
Зовут назад, но торгуюсь. Брошенная мною тема оказалась, БУДЬ ЗДОРОВ.
Но пока дом не закончу, к зиме, за науку точно не возьмусь.
Оказалось тема моей диссертации вполне может на уши поставить всю ядерную энергетику и не только. Могу пока в общем эфире, только приблизительно обозначить РЕКТИФИКАЦИЯ в условиях не равновесного светоиндуцированного дрейфа. Пиши в нычку gordeevmd@mail.ru обсудим.
В Молдове назревает большой кризис…