Предисловие
Data scientist исследует данные, чтобы отыскать скрытые закономерности и делать прогнозы о том, как будут развиваться события в будущем. Data Scientist занимается математическими моделями, программированием и статистикой применительно к необходимой профессиональной области (финансы, банковское дело и т.д.), а также решением конкретных задач, как-то: распознавание мошеннических транзакций, набор генов, соответствующих определенной болезни, финансовые риски для компаний и проч.
Чтобы решать эти задачи такой специалист должен обладать знаниями и навыками в нескольких областях. Самые важные из них — это математика, программирование, а также понимание бизнеса и стратегии.
Какие специалисты работают с данными
Аналитик данных (Data Analyst) — работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики.
Разработчик BI (Business Intelligence Developer) — занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования.
Инженер по данным (Data Engineer) — занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие.
Специалист по данным (Data Scientist) — занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.
Курсы, статьи и другие материалы по data science
Введение в Data Science и Big Data
“Специалист по большим данным: где учиться и куда пойти работать”
- В чем разница между Data Scientist и Data Engineer
- Где учиться: курсы, магистерские программы и др.
- Лайфхаки как найти работу
Вебинар “Новая нефть. Как использовать Big Data, чтобы стать цифровым шейхом?”
- Введение в профессию Big Data от популярного сервиса Антирабство
- Обзор всех профессий, связанных с Big Data
- Какие навыки нужны для попадания в профессию
Подборка видео с неформальных встреч DataTalks на Youtube.
- Организатор: компания Wargaming
- Темы: как зарабатывать на данных и машинном обучении, визуализация данных
- Спикеры: специалисты по анализу данных, бизнес-аналитики
“Как данные изменят бизнес” (TED)
- Сжатое и яркое объяснение того, как данные полностью изменили бизнес-стратегию
- Спикер: вице-президент Boston Consulting Group Филип Эванс
- Есть расшифровка лекции на русском
Введение в искусственный интеллект и машинное обучение
Кто и зачем создает искусственный интеллект?
- Лекция Байрама Аннакова, основателя App-in-the-Air и Empatika
- Очень занимательное и наглядное описание того, как развивался искусственный интеллект
- Вторая лекция Байрама Аннакова
- Типы машинного обучения и методов создания искусственного интеллекта
- Множество кейсов и практических советов
Машинный интеллект и машинное обучение
- Лекция Андрея Себранта,директора по маркетингу сервисов Яндекса
- Увлекательное введение в тему с множеством ярких примеров
- Очень подробная и простая для понимания статья о том, как работают нейронные сети и Deep Learning
Подборка хороших курсов
Онлайн-курс “Машинное обучение и анализ данных”
- Специализация Яндекса и МФТИ на Coursera на русском языке
- Полное введение в data science и машинное обучение на базе Python
- Теорию можно смотреть бесплатно, задания и сертификат — платные
- Интерактивное пошаговое изучение Data Science с фокусом на Python
- Обучение через практику: с самого начала работа с реальными данными и кодом
- 3 направления на выбор: Data Scientist, Data Analyst или Data Engineer
- Интерактивный онлайн-курс по Data Science с фокусом на R
- 66 курсов по машинному обучению, анализу данных и статистике
- Курс построен на решении практических задач
- Онлайн-программа профессиональной переподготовки от Института биоинформатики и Санкт-Петербургского Академического университета РАН, не требующая специальной подготовки
- Срок обучения: 1 год. С лета 2017 — ускоренная программа (полгода)
- Стоимость: 1999 рублей в месяц
- Бесплатное и ясное введение в математическую статистику для всех
- Легендарный курс основателя Coursera и одного из лучших специалистов по искусственному интеллекту Эндрю Ын (Andrew Ng)
- Этот курс можно считать индустриальным стандартом по введению в машинное обучение
- Добрый человек “перевел” задания на Python (в оригинале нужно все делать на Octave)
- Курс от Яндекса и ВШЭ
- Очень хорошее теоретическое введение в машинное обучение
- Автор: Константин Воронцов, один из самых известных специалистов по машинному обучению в России
Видеозаписи лекций Школы анализа данных Яндекса
- Видеозаписи занятий легендарной Школы анализа данных Яндекса
- Курсы: машинное обучение, алгоритмы и структуры данных, параллельные вычисления, дискретный анализ и теория вероятности и др.
“10 онлайн-курсов по машинному обучению”
- Подборка удаленных образовательных программ, составленная проектом “Теплица социальных технологий”
- Один из немногих бесплатных онлайн-курсов по SQL на русском языке
- Интерактивный курс построенный на практике для аналитиков, маркетологов и product-менеджеров
- Необходимый минимум, все самые важные операторы включая JOIN, GROUP BY и др.
- Любопытное введение в статистику на примере … котиков
- Вы получите знания об основах описательной статистики, дисперсионном и корреляционном анализе
- Фишка курса — наглядность (опять же картинки с котиками)
Онлайн-курс по Power BI от Needfordata
- Учит извлекать данные из разных файлов, баз данных и API
- Преобразовывать данные для удобного анализа
- Интерпретировать и визуализировать результаты анализа
Онлайн-курс программирования на Python
- Курс от Высшей школы экономики
- Онлайн-курс по самому популярному языку программирования для data scientist’ов
Хорошие конференции и митапы
International Conference on Big Data and its Applications (ICBDA)
- Самая серьезная конференция по Big Data на русском языке/li>
- Участвуют представители бизнеса, научные сотрудники, ученые и создатели новых технологий
- Включает соревнования, научный семинар, выставку
- Крупнейшая международная конференция, которая сегодня проводится в крупнейших технологических центрах, таких как Сан-Хосе,Нью-Йорк, Лондон и другие
- Все звезды и все новинки — здесь
- Кроме конференции проводятся воркшопы и обучение, возможно также онлайн-участие
- Ежегодный фестиваль и IT-форум, посвященный анализу данных, проходящий в Москве
- Для профессионалов в области Big Data и новичков в этой сфере
- Большие данные, искусственный интеллект, глубинное обучение, множество бизнес-кейсов
- Ежегодная конференция по Data Science, проходящая раз в год в Москве
- Для разработчиков, инженеров, исследователей
- Кейсы, на примере которых наглядно показывается, почему не стоит забивать гвозди микроскопом
- Одно из самых крупных и живых сообществ по анализу данных в рунете
- В основе — групповой чат Slack
- Здесь можно проконсультироваться, узнать о новых технологиях, найти работу и найти data scientist’а
- Группа, посвященная митапам по Data Science в Москве
- Анонсы встреч, лекций, мастер-классов, выступлений, обсуждений — все на тему Data Science
- Для людей, занимающихся и интересующихся анализом, визуализацией данных и майнингом