1. Анализ данных социальных сетей: подходы и методы

    Социальные сети являются хорошим источником данных и важно уметь эффективно работать с этим данными. Рассмотрим несколько особенностей и подходов работы с данными социальных сетей. Стоит отметить, что существует отдельное направление — Social Mining. Это применение методов и алгоритмов data mining для поиска и обнаружения зависимостей и знаний в социальных сетях...
  2. Разница между предиктивной аналитикой и дата майнингом

    What is Predictive Analytics? According to Wikipedia, “Predictive analytics encompasses a variety of statistical techniques from predictive modeling, machine learning, and data mining that analyze current and historical facts to make predictions about future or otherwise unknown events.” What’s behind Predictive Analytics? Prerequisite for Predictive Analytics is the collection of...
  3. Инструменты для очистки данных

    Как говорится, чистые данные существуют только в учебниках. Большинство имеющихся данных неструктурированы, содержат много потерянных элементов, могут содержать дубликаты и прочие «мусорные» значения. Поэтому одним из важнейших, базовых и часто самых трудоёмких этапов анализа данных является их очистка. Но есть полезные инструменты, которые приходят на помощь при очистке данных. Рассмотрим...
  4. Текст майнинг: инструменты

    Интеллектуальный анализ текстов (англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает...
  5. 12 алгоритмов, которые должен знать каждый data scientist

    Алгоритмы являются неотъемлемой частью обработки данных. Предлагаем рассмотреть инфографику о 12 блоков алгоритмов, которые должен знать каждый исследователь данных. Внутри «блоков» имеется список присущих блоку алгоритмов. Источник
  6. Алгоритм PageRank

    Продолжаем описание популярных алгоритмов из серии «Топ-10 data mining алгоритмов» и сегодня весьма интересный случай — алгоритм PageRank. PageRank – это алгоритм ссылочного ранжирования, разработанный для определения относительной важности объекта, связанного с сетью объектов. Ссылочное ранжирование? Это тип сетевого анализа, определяющий ассоциации (читай, связи) между объектами. Вот пример: Наиболее известный...
  7. EM-алгоритм

    Переходим к следующему алгоритму в рамках «Топ-10 data mining алгоритмов», а именно к EM-алгоритму. В data mining алгоритм максимизации ожидания (expectation-maximization (EM) обычно используется как кластерный алгоритм (наподобие алгоритма к-средних) для обнаружения знаний. В математической статистике EM-алгоритм считается итерационным и используется для оценки максимального правдоподобия при вычислении параметров статистической модели...
  8. Алгоритм Apriori

    Идём дальше в цикле статей Топ-10 data mining алгоритмов и рассматриваем полезный и интересный алгоритм Apriori (Априори). Алгоритм Apriori ищет ассоциативные правила и применяется по отношению к базам данных, содержащим огромное количество транзакций. Что такое ассоциативные правила? Изучение ассоциативных правил – это техника, применяемая в data mining для изучения соотношений...
  9. Text Mining в управлении инвестициями

    Издание Business Insider сообщает о том, что гигантский хедж-фонд, управляющий $35 млрд, превратился в технологическую компанию, использующую передовые методы искусственного интеллекта в своей деятельности. Речь идет о хедж-фонде Two Sigma, внедрившим в свою деятельность автоматизированный способ обработки данных протоколов ФРС. Исторически считается, что анализ протоколов ФРС — это нетривиальная задача, которой аналитики...
  10. Метод опорных векторов (SVM)

    Продолжаем цикл статей про Топ-10 data mining алгоритмов. Сегодня у нас на проводе интересный алгоритм дата майнинга — метод опорных векторов. Метод опорных векторов (SVM – Support vector machines) использует гиперплоскость, чтобы классифицировать данные по 2 классам. На верхнем уровне SVM выполняет те же операции, что и C4.5, но с...

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.