Курс по изучению машинного обучения и анализа данных

Если вы вдруг решили самостоятельно начать изучать теорию (и практику) анализа данных, то в качестве ориентира можно взять существующие учебные программы курсов, предлагаемых по этой тематике. Данный план взят у курса от Билайна.

Кстати, список курсов, блогов и пр. мы упоминали вот здесь: Курсы и ресурсы по Big Data и Data Science

1. Введение в машинное обучение. Основные типы задач и методы их решения

Теория

  • Введение в машинное обучение, необходимые навыки
  • Задачи классификации, регрессии и кластеризации
  • Извлечение, отбор и преобразование признаков
  • Особенности решения задач машинного обучения
  • Обзор инструментов для решения задач машинного обучения
  • Обзор графовых задач
  • Знания, необходимые для успешного освоения науки о данных
  • Особенности обработки больших данных
  • Workflow решения задач анализа данных
  • Конкретные примеры решения задач анализа данных
  • 2. Библиотеки и инструменты для анализа данных. Математика в машинном обучении

    Теория

  • Математика в машинном обучении: статистические распределения, нормализация признаков, приведение к нормальному распределению, метод максимального правдоподобия, проверка статистических гипотез, методы оптимизации
  • Работа с векторами и матрицами в библиотеке NumPy
  • Обзор библиотеки для научных вычислений SciPy
  • Визуализация данных с Matplotlib и Seaborn
  • Чтение и обработка данных с библиотекой Pandas
  • Практика

  • Визуализация и предварительный анализ данных соревнования Kaggle «Titanic: Machine Learning from Disaster» c помощью Pandas
  • Первичный анализ данных с Seaborn
  • Решение задачи соревнования Kaggle «Titanic: Machine Learning from Disaster» c помощью Pandas
  • 3. Обучение с учителем. Задачи классификации и регрессии

    Теория

  • Деревья решений
  • Энтропия, прирост информации и неопределенность Джинни
  • Алгоритмы ID3, C 4.5, CART
  • Работа с признаками – отбор, преобразование, построение
  • Практика

  • Применение дерева решений Scikit-learn к синтетическому набору данных и к данным соревнования Kaggle Inclass по автострахованию
  • Настройка параметров дерева, кросс-валидация
  • Пример извлечения признака для набора данных соревнования Kaggle Inclass по автострахованию
  • Практика на применение дерева решений и случайного леса к набору данных соревнования «Titanic: Machine Learning from Disaster»
  • 4. Оценка качества алгоритмов машинного обучения

    Теория

  • Обзор библиотеки машинного обучения Scikit-learn
  • Метрики качества алгоритмов машинного обучения — доля (accuracy), точность (precision), полнота (recall), F-score, ROC-кривая, AUC
  • Случай несбалансированных классов
  • Случай классификации на несколько классов
  • Логистическая регрессия
  • Метод опорных векторов (Support Vector Machine), ядра
  • Практика

  • Сравнение разных методов при решении задачи Kaggle Inclass по предсказанию типа выплат по автостраховке
  • Примеры решения задач классификации и регрессии — наборы данных UCI
  • 5. Продвинутые методы классификации и регрессии. Переобучение

    Теория

  • Нейронные сети, алгоритм обратного распространения ошибки
  • Построение ансамблей алгоритмов
  • Случайный лес (Random Forest)
  • Бустинг (boosting) и бэггинг (bagging), Xgboost
  • Стекинг
  • Переобучение, кросс-валидация, регуляризация
  • Пример регуляризации для логистической регрессии
  • Практика

  • Сравнение случайного леса, бустинга и бэггинга на наборах данных репозитория UCI
  • Случайный лес на примере набора данных Titanic
  • Случайный лес на примере набора данных по автострахованию
  • Практика использования библиотек Lasagne NN и Xgboost
  • Разбор решения задачи Kaggle «Otto Group Product Classification
  • Challenge» Станиславом Семеновым и Gilberto Titericz (1 место)
  • 6. Обучение без учителя

    Теория

  • Введение в обучение без учителя
  • Задача кластеризации — алгоритм k-means
  • Иерархическая кластеризация
  • Спектральная кластеризация
  • Плотностные методы кластеризации
  • Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)
  • Поиск выбросов и аномалий в данных — статистический подход, одноклассовая машина опорных векторов
  • Практика

  • Пример поиска аномалий в данных
  • 7. Анализ социальных сетей

    Теория

  • Введение в теорию графов
  • Классические алгоритмы на графах
  • Поиск в ширину и поиск в глубину
  • Алгоритм PageRank
  • Алгоритмы поиска связных компонент в графе / сильно связных компонент в графе
  • Кластеризация на графах/обнаружение в соц. сетях
  • Практика

  • Применение машинного обучения в графовых задачах
  • Решение задачи рекомендации друзей в социальных сетях (Link Prediction)
  • Введение в случайные и веб-графы и как они помогают на практике в реальных задачах
  • Обзор инструментов для работы с графами
  • 8. Обнаружение знаний в данных

    Теория

  • Поиск частых множеств (товаров) и ассоциативные правила
  • Алгоритмы Apriori и FP-growth
  • Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)
  • Поиск паттернов с ограничениями
  • Поиск частых последовательностей
  • Поиск частых подграфов
  • Практика

  • Знакомство с инструментом SPMF
  • Анализ последовательностей на примере демографических данных
  • 9. Рекомендательные системы

    Теория

  • Введение в коллаборативную фильтрацию
  • Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства
  • Оценка качества рекомендательной системы
  • Рекомендации на основе ассоциативных правил
  • Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)
  • Мультимодальная кластеризация и рекомендации в фолксономиях
  • Практика

  • Case-study: рекомендация радиостанций
  • 10. Обработка текстов

    Теория

  • Задачи обработки естественного языка (NLP)
  • Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ
  • Модели представления текстов: мешок слов, VSM, синтаксические деревья
  • Современные методы: word2vec, topic modeling
  • Практика

  • Поиск ключевых слов
  • Определение сходства документов
  • Кластеризация текстов
  • Поиск похожих слов
  • 11. Введение в анализ больших данных и масштабируемое машинное обучение

    Теория

  • Машинное обучение: подход MapReduce, онлайн-обучение
  • Стохастический градиентный спуск
  • Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)
  • Обзор инструмента Apache Spark
  • Введение в функциональное программирование (map, filter, reduce, lambda-функции)
  • Обзор библиотек MLlib и GraphX Apache Spark
  • Коллаборативная фильтрация с Apache Spark
  • Практика

  • Практика использования функций map, filter, reduce и lambda-функций
  • Практика использования методов работы с устойчивыми распределенными наборами данных (RDD)
  • Анализ веб-логов с Apache Spark
  • Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens
  • Пример решения задачи классификации со Spark MLlib
  • Предсказание кликов пользователей с Apache Spark
  • 12. Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit

    Теория

  • Что делать, если мало оперативной памяти
  • Введение в онлайн обучение
  • Метрики качества — progressive loss
  • Выбор функции потерь
  • Hashing trick
  • Подбор параметров регуляризации при онлайн-обучении
  • Дообучение алгоритмов
  • Практика

  • Обзор инструмента vowpal wabbit
  • Пример решения задачи в 2 строки с помощью vowpal wabbit
  • Обзор нестандартных параметров vw
  • 13. Соревнования по анализу данных

    Теория

  • Обзор платформы Kaggle
  • Зачем нужны соревнования по анализу данных
  • Особенности задач в соревнованиях по машинному обучению
  • Отличия задач соревнований по анализу данных от реальных бизнес-задач
  • Решение задачи Kaggle «Driver Telematics Analysis» по определению профиля вождения водителя
  • Практика

  • Решение задачи Kaggle «Greek Media Monitoring Multilabel Classification(WISE 2014)»
  • Работа с категориальными признаками, различные подходы
  • Решение задачи Kaggle «Caterpillar Tube Pricing» по предсказанию цены на конструкцию из труб
  • Data Scientist # 1

    Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

    Данные — новый актив!

    Эффективно управлять можно только тем, что можно измерить.
    Copyright © 2016-2021 Data Scientist. Все права защищены.