Data Mining | Data Science

Два
Раз

Главная / Data Mining

Анализ данных социальных сетей: подходы и методы

04.10.2020

Социальные сети являются хорошим источником данных и важно уметь эффективно работать с этим данными. Рассмотрим несколько особенностей и подходов работы с данными социальных сетей. Стоит отметить, что существует отдельное направление — Social Mining. Это применение методов и алгоритмов data mining для поиска и обнаружения зависимостей и знаний в социальных сетях...
Подробнее...
Разница между предиктивной аналитикой и дата майнингом

10.11.2016

What is Predictive Analytics? According to Wikipedia, “Predictive analytics encompasses a variety of statistical techniques from predictive modeling, machine learning, and data mining that analyze current and historical facts to make predictions about future or otherwise unknown events.” What’s behind Predictive Analytics? Prerequisite for Predictive Analytics is the collection of...
Подробнее...
Инструменты для очистки данных

13.08.2016

Как говорится, чистые данные существуют только в учебниках. Большинство имеющихся данных неструктурированы, содержат много потерянных элементов, могут содержать дубликаты и прочие «мусорные» значения. Поэтому одним из важнейших, базовых и часто самых трудоёмких этапов анализа данных является их очистка. Но есть полезные инструменты, которые приходят на помощь при очистке данных. Рассмотрим...
Подробнее...
Текст майнинг: инструменты

14.07.2016

Интеллектуальный анализ текстов (англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает...
Подробнее...
12 алгоритмов, которые должен знать каждый data scientist

09.07.2016

Алгоритмы являются неотъемлемой частью обработки данных. Предлагаем рассмотреть инфографику о 12 блоков алгоритмов, которые должен знать каждый исследователь данных. Внутри «блоков» имеется список присущих блоку алгоритмов. Источник
Подробнее...
Алгоритм PageRank

29.06.2016

Продолжаем описание популярных алгоритмов из серии «Топ-10 data mining алгоритмов» и сегодня весьма интересный случай — алгоритм PageRank. PageRank – это алгоритм ссылочного ранжирования, разработанный для определения относительной важности объекта, связанного с сетью объектов. Ссылочное ранжирование? Это тип сетевого анализа, определяющий ассоциации (читай, связи) между объектами. Вот пример: Наиболее известный...
Подробнее...
EM-алгоритм

14.06.2016

Переходим к следующему алгоритму в рамках «Топ-10 data mining алгоритмов», а именно к EM-алгоритму. В data mining алгоритм максимизации ожидания (expectation-maximization (EM) обычно используется как кластерный алгоритм (наподобие алгоритма к-средних) для обнаружения знаний. В математической статистике EM-алгоритм считается итерационным и используется для оценки максимального правдоподобия при вычислении параметров статистической модели...
Подробнее...
Алгоритм Apriori

23.05.2016

Идём дальше в цикле статей Топ-10 data mining алгоритмов и рассматриваем полезный и интересный алгоритм Apriori (Априори). Алгоритм Apriori ищет ассоциативные правила и применяется по отношению к базам данных, содержащим огромное количество транзакций. Что такое ассоциативные правила? Изучение ассоциативных правил – это техника, применяемая в data mining для изучения соотношений...
Подробнее...
Text Mining в управлении инвестициями

21.05.2016

Издание Business Insider сообщает о том, что гигантский хедж-фонд, управляющий $35 млрд, превратился в технологическую компанию, использующую передовые методы искусственного интеллекта в своей деятельности. Речь идет о хедж-фонде Two Sigma, внедрившим в свою деятельность автоматизированный способ обработки данных протоколов ФРС. Исторически считается, что анализ протоколов ФРС — это нетривиальная задача, которой аналитики...
Подробнее...
Метод опорных векторов (SVM)

15.05.2016

Продолжаем цикл статей про Топ-10 data mining алгоритмов. Сегодня у нас на проводе интересный алгоритм дата майнинга — метод опорных векторов. Метод опорных векторов (SVM – Support vector machines) использует гиперплоскость, чтобы классифицировать данные по 2 классам. На верхнем уровне SVM выполняет те же операции, что и C4.5, но с...
Подробнее...