Анализ данных социальных сетей: подходы и методы

Социальные сети являются хорошим источником данных и важно уметь эффективно работать с этим данными. Рассмотрим несколько особенностей и подходов работы с данными социальных сетей.

Стоит отметить, что существует отдельное направление — Social Mining. Это применение методов и алгоритмов data mining для поиска и обнаружения зависимостей и знаний в социальных сетях (или тех областях знаний, где данные можно представить в виде сетей/графов). Области применения достаточно широки.

В общем случае, почти все практические задачи анализа данных соцсетей сводятся к следующим базовым:
1. Анализ инфопотоков, структуры и метрик социальной сети
2. Анализ тональности сообщений (эмоциональной окраски)
3. Анализ и извлечение тем (о чем пишут в соцсетях)
4. Анализ изображений
Часто встречаются и комбинации этих задач.

Анализ инфопотоков

Данный класс методов позволяет выявить лидеров мнений в соцсетях, осуществлять управление медиа-кампанией, оценивать отношение пользователей к той или иной информации. Решаемые задачи здесь такие:

  • Поиск наиболее коммуницирующих между собой объектов.
  • Поиск объектов, имеющих наибольшее количество связей.
  • Поиск наиболее «авторитетных» объектов.
  • Поиск объектов, которые служат «мостиком» между сообществами.

Наиболее часто используемое средство для анализа и визуализации в данной области — это граф, где узлами (акторами) являются люди или группы, а ребра демонстрируют взаимоотношения (связи) или потоки информации между узлами.

Одна из важнейших задач в анализе соцсетей — поиск «важных» (с различной точки зрения) участников социального графа. Для этого исследователи рассчитывают различные виды метрик: Degree centrality (по числу связанных узлов; важен тот, у кого много друзей; полезна для выделения лидеров мнений), Closeness centrality (по близости; на сколько близко участник ко всем другим в сети; чаще всего применяется в задаче поиска групп влияния и «серых кардиналов»), Betweenness centrality (по промежуточности; число кратчайших путей, проходящих через участника; насколько часто через этого человека проходит информация в сообществе).

Анализ тональности

Данный класс методов позволяет оценивать отношение пользователей к той или иной информации (объекту, человеку, событию и т.п.). Решаемые здесь задачи: оценка эмоциональной окраски сообщений; выделение именованных сущностей и оценка их эмоциональной окраски.

Анализ тем

Данный класс методов позволяет выявить темы, которые наиболее популярны в сообществе и чаще всего в нем обсуждаются (в конкретный момент времени). Решаемые задачи: выделение тем (topic modelling), оценка эмоциональной окраски тем, выделение сущностей, связанных с темой.

Анализ изображений

Позволяет выявить какие типы фото-контента размещают различные сегменты пользователей. Решаемые задачи: тип объекта на фотографии, тип локации на фотографии, эмоции людей, верификация и идентификация (для сопоставления человека, обнаруженного в физической локации с его профилем в социальной сети).

Если задача направлена на уровень анализа конкретного человека, то есть такие направления:

  • Персонификция предложений
  • Анализ структуры социальной сети
  • Анализ контента человека в социальной сети

Персонификация предложений позволяет предоставлять пользователю тот контент, который наиболее актуален для него. Задачи: сбор и обогащение информации о пользователе; кластеризация и сегментация пользователей; классификация пользователей на базе построенной модели; персонифицированное предоставление информации.

Что Google знает о вас? Информации о себе вы можете найти здесь: google.com/settings/ads

Актуальные и перспективные исследования в области анализа соцсетей

1. Semi-supervised learning в социальных сетях
2. Устойчивость и дизайн социальных сетей
3. Прогнозирование распространения информации в социальных сетях
4. Синергия пространственных данных и данных социальных сетей

Примеры курсов по данной теме:

  • http://leonidzhukov.net/hse/2017/sna/
  • http://web.stanford.edu/class/cs224w/index.html

 

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2020 Data Scientist. Все права защищены.