Социальные сети являются хорошим источником данных и важно уметь эффективно работать с этим данными. Рассмотрим несколько особенностей и подходов работы с данными социальных сетей.
Стоит отметить, что существует отдельное направление — Social Mining. Это применение методов и алгоритмов data mining для поиска и обнаружения зависимостей и знаний в социальных сетях (или тех областях знаний, где данные можно представить в виде сетей/графов). Области применения достаточно широки.
В общем случае, почти все практические задачи анализа данных соцсетей сводятся к следующим базовым:
1. Анализ инфопотоков, структуры и метрик социальной сети
2. Анализ тональности сообщений (эмоциональной окраски)
3. Анализ и извлечение тем (о чем пишут в соцсетях)
4. Анализ изображений
Часто встречаются и комбинации этих задач.
Анализ инфопотоков
Данный класс методов позволяет выявить лидеров мнений в соцсетях, осуществлять управление медиа-кампанией, оценивать отношение пользователей к той или иной информации. Решаемые задачи здесь такие:
- Поиск наиболее коммуницирующих между собой объектов.
- Поиск объектов, имеющих наибольшее количество связей.
- Поиск наиболее «авторитетных» объектов.
- Поиск объектов, которые служат «мостиком» между сообществами.
Наиболее часто используемое средство для анализа и визуализации в данной области — это граф, где узлами (акторами) являются люди или группы, а ребра демонстрируют взаимоотношения (связи) или потоки информации между узлами.
Одна из важнейших задач в анализе соцсетей — поиск «важных» (с различной точки зрения) участников социального графа. Для этого исследователи рассчитывают различные виды метрик: Degree centrality (по числу связанных узлов; важен тот, у кого много друзей; полезна для выделения лидеров мнений), Closeness centrality (по близости; на сколько близко участник ко всем другим в сети; чаще всего применяется в задаче поиска групп влияния и «серых кардиналов»), Betweenness centrality (по промежуточности; число кратчайших путей, проходящих через участника; насколько часто через этого человека проходит информация в сообществе).
Анализ тональности
Данный класс методов позволяет оценивать отношение пользователей к той или иной информации (объекту, человеку, событию и т.п.). Решаемые здесь задачи: оценка эмоциональной окраски сообщений; выделение именованных сущностей и оценка их эмоциональной окраски.
Анализ тем
Данный класс методов позволяет выявить темы, которые наиболее популярны в сообществе и чаще всего в нем обсуждаются (в конкретный момент времени). Решаемые задачи: выделение тем (topic modelling), оценка эмоциональной окраски тем, выделение сущностей, связанных с темой.
Анализ изображений
Позволяет выявить какие типы фото-контента размещают различные сегменты пользователей. Решаемые задачи: тип объекта на фотографии, тип локации на фотографии, эмоции людей, верификация и идентификация (для сопоставления человека, обнаруженного в физической локации с его профилем в социальной сети).
Если задача направлена на уровень анализа конкретного человека, то есть такие направления:
- Персонификция предложений
- Анализ структуры социальной сети
- Анализ контента человека в социальной сети
Персонификация предложений позволяет предоставлять пользователю тот контент, который наиболее актуален для него. Задачи: сбор и обогащение информации о пользователе; кластеризация и сегментация пользователей; классификация пользователей на базе построенной модели; персонифицированное предоставление информации.
Что Google знает о вас? Информации о себе вы можете найти здесь: google.com/settings/ads
Актуальные и перспективные исследования в области анализа соцсетей
1. Semi-supervised learning в социальных сетях
2. Устойчивость и дизайн социальных сетей
3. Прогнозирование распространения информации в социальных сетях
4. Синергия пространственных данных и данных социальных сетей
Примеры курсов по данной теме:
- http://leonidzhukov.net/hse/2017/sna/
- http://web.stanford.edu/class/cs224w/index.html