1. Как выбирать алгоритмы для машинного обучения

    Разновидности машинного обучения Обучение с учителем Алгоритмы обучения с учителем делают прогнозы на основе набора примеров. Так, чтобы предсказать цены в будущем, можно использовать курс акций в прошлом. Каждый пример, используемый для обучения, получает свою отличительную метку значения, в данном случае это курс акций. Алгоритм обучения с учителем ищет закономерности...
  2. Отбор информативных признаков

    Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных...
  3. Почему ошибаются алгоритмы машинного обучения

    Мы часто слышим о том, как очередной сложный алгоритм искусственного интеллекта начал ошибаться или стал следовать предрассудкам, которым машины не должны быть подвержены. Почему так происходит? Из-за чего появляются эти ложные положительные и отрицательные ответы и так ли это важно? Для начала давайте определим три термина из Матрицы смешения: точность,...
  4. Алгоритм CART

    CART (classification and regression trees) – это аббревиатура, обозначающая методы классификации и регрессии с использованием дерева решений. Это методика обучения, основанная на деревьях решений, которая возвращает классификационные или регрессионные деревья. Как было в случае с C4.5, CART – это классификатор. Дерево классификации выглядит так же как дерево решений? Дерево классификаций...
  5. Наивный баейсовский классификатор

    Девятый алгоритм из цикла «Топ-10 data mining адгоритмов» — Naive Bayes. Наивный байесовский классификатор – это семейство алгоритмов классификации, которые принимают одно допущение: Каждый параметр классифицируемых данных рассматривается независимо от других параметров класса. Что означает слово «независимо»? 2 параметра называются независимыми, когда значение одного параметра не оказывает влияния на второй....
  6. Алгоритм k-ближайших соседей

    Алгоритм k-ближайших соседей продолжает серию статей о Топ-10 data mining алгоритмах. kNN (k-Nearest Neighbors) – это алгоритм классификации, однако это – ленивый классификатор. Что значит ленивый классификатор? Это означает, что в процессе обучения он не делает ничего, а только хранит тренировочные данные. Он начинает классификацию только тогда, когда появляются новые...
  7. Алгоритм AdaBoost

    Продолжаем разбор алгоритмов в рамках «Топ-10 data mining алгоритмов» и рассмотрим алгоритм AdaBoost. Что он делает? AdaBoost – это алгоритм усиления классификаторов. Как вы помните, классификатор пытается предсказать по уже известным ему данным, к какому классу будут относиться новые данные. Что такое усиление? Усиление – это ансамблевый алгоритм обучения, который...
  8. The worst predictive modeling techniques

    Typically, these bad techniques are still widely used. Linear regression. Relies on the normal, heteroscedasticity and other assumptions, does not capture highly non-linear, chaotic patterns. Prone to over-fitting. Parameters difficult to interpret. Very unstable when independent variables are highly correlated. Fixes: variable reduction, apply a transformation to your variables, use...
  9. Алгоритмический бизнес

    7 причин, почему алгоритмический бизнес изменит наше общество. Мир движется настолько быстро, что уже бигдата является вчерашним днём, на смену пришла операционная аналитика (аналитика 3.0), а бизнес процессы уже могут быть автоматизированы. But in big data itself is no value at all.  We can all generate massive amounts of data...

Data Scientist # 1

Data science, большие данные, наука о данных, анализ данных, маркетинг, искусственный интеллект, бизнес-аналитика, business intelligence, data scientist, data analysis, artificial intelligence, big data, data mining.

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2018 Data Scientist. Все права защищены.