Курс по изучению машинного обучения и анализа данных

Если вы вдруг решили самостоятельно начать изучать теорию (и практику) анализа данных, то в качестве ориентира можно взять существующие учебные программы курсов, предлагаемых по этой тематике. Данный план взят у курса от Билайна.

Кстати, список курсов, блогов и пр. мы упоминали вот здесь: Курсы и ресурсы по Big Data и Data Science

1. Введение в машинное обучение. Основные типы задач и методы их решения

Теория

Введение в машинное обучение, необходимые навыки

Задачи классификации, регрессии и кластеризации

Извлечение, отбор и преобразование признаков

Особенности решения задач машинного обучения

Обзор инструментов для решения задач машинного обучения

Обзор графовых задач

Знания, необходимые для успешного освоения науки о данных

Особенности обработки больших данных

Workflow решения задач анализа данных

Конкретные примеры решения задач анализа данных

2. Библиотеки и инструменты для анализа данных. Математика в машинном обучении

Теория

Математика в машинном обучении: статистические распределения, нормализация признаков, приведение к нормальному распределению, метод максимального правдоподобия, проверка статистических гипотез, методы оптимизации

Работа с векторами и матрицами в библиотеке NumPy

Обзор библиотеки для научных вычислений SciPy

Визуализация данных с Matplotlib и Seaborn

Чтение и обработка данных с библиотекой Pandas

Практика

Визуализация и предварительный анализ данных соревнования Kaggle «Titanic: Machine Learning from Disaster» c помощью Pandas

Первичный анализ данных с Seaborn

Решение задачи соревнования Kaggle «Titanic: Machine Learning from Disaster» c помощью Pandas

3. Обучение с учителем. Задачи классификации и регрессии

Теория

Деревья решений

Энтропия, прирост информации и неопределенность Джинни

Алгоритмы ID3, C 4.5, CART

Работа с признаками – отбор, преобразование, построение

Практика

Применение дерева решений Scikit-learn к синтетическому набору данных и к данным соревнования Kaggle Inclass по автострахованию

Настройка параметров дерева, кросс-валидация

Пример извлечения признака для набора данных соревнования Kaggle Inclass по автострахованию

Практика на применение дерева решений и случайного леса к набору данных соревнования «Titanic: Machine Learning from Disaster»

4. Оценка качества алгоритмов машинного обучения

Теория

Обзор библиотеки машинного обучения Scikit-learn

Метрики качества алгоритмов машинного обучения — доля (accuracy), точность (precision), полнота (recall), F-score, ROC-кривая, AUC

Случай несбалансированных классов

Случай классификации на несколько классов

Логистическая регрессия

Метод опорных векторов (Support Vector Machine), ядра

Практика

Сравнение разных методов при решении задачи Kaggle Inclass по предсказанию типа выплат по автостраховке

Примеры решения задач классификации и регрессии — наборы данных UCI

5. Продвинутые методы классификации и регрессии. Переобучение

Теория

Нейронные сети, алгоритм обратного распространения ошибки

Построение ансамблей алгоритмов

Случайный лес (Random Forest)

Бустинг (boosting) и бэггинг (bagging), Xgboost

Стекинг

Переобучение, кросс-валидация, регуляризация

Пример регуляризации для логистической регрессии

Практика

Сравнение случайного леса, бустинга и бэггинга на наборах данных репозитория UCI

Случайный лес на примере набора данных Titanic

Случайный лес на примере набора данных по автострахованию

Практика использования библиотек Lasagne NN и Xgboost

Разбор решения задачи Kaggle «Otto Group Product Classification

Challenge» Станиславом Семеновым и Gilberto Titericz (1 место)

6. Обучение без учителя

Теория

Введение в обучение без учителя

Задача кластеризации — алгоритм k-means

Иерархическая кластеризация

Спектральная кластеризация

Плотностные методы кластеризации

Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)

Поиск выбросов и аномалий в данных — статистический подход, одноклассовая машина опорных векторов

Практика

Пример поиска аномалий в данных

7. Анализ социальных сетей

Теория

Введение в теорию графов

Классические алгоритмы на графах

Поиск в ширину и поиск в глубину

Алгоритм PageRank

Алгоритмы поиска связных компонент в графе / сильно связных компонент в графе

Кластеризация на графах/обнаружение в соц. сетях

Практика

Применение машинного обучения в графовых задачах

Решение задачи рекомендации друзей в социальных сетях (Link Prediction)

Введение в случайные и веб-графы и как они помогают на практике в реальных задачах

Обзор инструментов для работы с графами

8. Обнаружение знаний в данных

Теория

Поиск частых множеств (товаров) и ассоциативные правила

Алгоритмы Apriori и FP-growth

Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)

Поиск паттернов с ограничениями

Поиск частых последовательностей

Поиск частых подграфов

Практика

Знакомство с инструментом SPMF

Анализ последовательностей на примере демографических данных

9. Рекомендательные системы

Теория

Введение в коллаборативную фильтрацию

Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства

Оценка качества рекомендательной системы

Рекомендации на основе ассоциативных правил

Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)

Мультимодальная кластеризация и рекомендации в фолксономиях

Практика

Case-study: рекомендация радиостанций

10. Обработка текстов

Теория

Задачи обработки естественного языка (NLP)

Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ

Модели представления текстов: мешок слов, VSM, синтаксические деревья

Современные методы: word2vec, topic modeling

Практика

Поиск ключевых слов

Определение сходства документов

Кластеризация текстов

Поиск похожих слов

11. Введение в анализ больших данных и масштабируемое машинное обучение

Теория

Машинное обучение: подход MapReduce, онлайн-обучение

Стохастический градиентный спуск

Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)

Обзор инструмента Apache Spark

Введение в функциональное программирование (map, filter, reduce, lambda-функции)

Обзор библиотек MLlib и GraphX Apache Spark

Коллаборативная фильтрация с Apache Spark

Практика

Практика использования функций map, filter, reduce и lambda-функций

Практика использования методов работы с устойчивыми распределенными наборами данных (RDD)

Анализ веб-логов с Apache Spark

Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens

Пример решения задачи классификации со Spark MLlib

Предсказание кликов пользователей с Apache Spark

12. Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit

Теория

Что делать, если мало оперативной памяти

Введение в онлайн обучение

Метрики качества — progressive loss

Выбор функции потерь

Hashing trick

Подбор параметров регуляризации при онлайн-обучении

Дообучение алгоритмов

Практика

Обзор инструмента vowpal wabbit

Пример решения задачи в 2 строки с помощью vowpal wabbit

Обзор нестандартных параметров vw

13. Соревнования по анализу данных

Теория

Обзор платформы Kaggle

Зачем нужны соревнования по анализу данных

Особенности задач в соревнованиях по машинному обучению

Отличия задач соревнований по анализу данных от реальных бизнес-задач

Решение задачи Kaggle «Driver Telematics Analysis» по определению профиля вождения водителя

Практика

Решение задачи Kaggle «Greek Media Monitoring Multilabel Classification(WISE 2014)»

Работа с категориальными признаками, различные подходы

Решение задачи Kaggle «Caterpillar Tube Pricing» по предсказанию цены на конструкцию из труб

Курс по изучению машинного обучения и анализа данных

1. Введение в машинное обучение. Основные типы задач и методы их решения

2. Библиотеки и инструменты для анализа данных. Математика в машинном обучении

3. Обучение с учителем. Задачи классификации и регрессии

4. Оценка качества алгоритмов машинного обучения

5. Продвинутые методы классификации и регрессии. Переобучение

6. Обучение без учителя

7. Анализ социальных сетей

8. Обнаружение знаний в данных

9. Рекомендательные системы

10. Обработка текстов

11. Введение в анализ больших данных и масштабируемое машинное обучение

12. Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit

13. Соревнования по анализу данных

Искать

Недавнее

Тематика

Data Scientist # 1

Данные — новый актив!

Войдите в свой аккаунт