Что нужно знать начинающему data scientist?

Сразу к делу.

Начните со статистики

Главную пользу в компании дата-сайентист приносит благодаря своему умению извлекать полезные данные из сложных. Для этого нужно научиться выделять смысл из хаотической информации.

Освойте статистический анализ. Он поможет вам:

  • Описать данные и предоставить детальную картину заинтересованным лицам.
  • Сравнить данные и проверить гипотезы, чтобы потом сообщить информацию для важных бизнес-решений.
  • Определять тренды и взаимосвязи, по которым можно будет сделать ценные прогнозы.

Будьте внимательны! Хуже скудной аналитики — только неправильная, поэтому важно хорошо понимать, как работает статистический анализ. К счастью, существует несколько ключевых принципов, которые помогут вам избежать ошибок.

Например, всегда относитесь к полученным результатам с долей критики и скептицизма. Возможно, тренды, которые вы нашли в данных, это всего лишь систематическая ошибка отбора? Правильно ли вы брали методологию? Совпадают ли ваши данные со всеми предположениями?

От ваших предположений зависит то, какая информация окажется настолько «интересной», что ее стоит сообщить. Задумайтесь, о чем целесообразнее будет рассказать — о средних значениях или медиане набора данных.

Иногда важно знать, на какие методы не стоит полагаться. Существует несколько способов анализа данных, и необходимо работать с ними внимательно, чтобы избегать ошибок. Например, множественные сравнения всегда должны корректироваться, и ни в коем случае не нужно подтверждать гипотезу данными, с помощью которых вы ее вывели.

Проектирование данных (data engineering)

Большую часть работы дата-сайентиста занимает изучение и сортировка сырых данных для глубокого анализа. Гораздо меньше времени уделяется внедрению алгоритмов с нуля. Большинство статистических инструментов поставляется с готовыми R-пакетами и модулями на Python.

Программирование

Помимо аналитических навыков и знаний в своей области, вам необходимо уметь работать с кодом. На вопрос, какие языки программирования должен знать дата-сайентист, нет единого ответа. По крайней мере, вам пригодятся Python и/или R.

Какой бы язык вы ни выбрали, постарайтесь ознакомиться со всеми его функциями и экосистемой. Изучите доступные пакеты и модули и настройте идеальную интерактивную среду разработки. Научитесь работать с API, необходимые для анализа основных платформ и сервисов вашей компании.

Ключевым элементом вашей работы станут базы данных. Научитесь понимать какой-нибудь из видов SQL. Если ваша компания пользуется базами данных вроде MongoDB, стоит изучить и их принципы работы.

Коммуникация

Вы должны эффективно доносить полученные данные, руководствуясь следующими принципами:

  • Точность
  • Конкретика
  • Краткость
  • Доступность
  • Визуализация данных
  • Хорошо построенный график или схема может показать то, на что ушло бы несколько абзацев текста.

Есть множество платных и бесплатных инструментов для визуализации данных, например, Plotly, Tableau, Chartio, d3.js и другие. Если вам нужно быстро набросать таблицу, не отказывайтесь от таких проверенных средств, как Excel или Google Sheets.

Когда вы создаете график, важно, чтобы на нем отображался максимум информации, но при этом сохранялась его «читабельность». Хорошая схема понятна с первого взгляда. Больше информации о том, как лучше составлять диаграммы и схемы вы найдете в книге Эдварда Тафти «Визуальное представление больших объемов информации».

Не забывайте постоянно учиться

Если вы дочитали до этого места и расстроились, что не обладаете ни одним из этих навыков, ничего страшного. Самое важный навык дата-сайентиста — это умение постоянно учиться и переучиваться. Индустрия стремительно развивается, и в ближайшие годы появятся новые фреймворки, инструменты и методы. Через пять-десять лет все полученные умения могут устареть — будьте к этому готовы. Выучите основы и постоянно узнавайте что-то новое — только так вы сможете удержаться на плаву.

Источник на русском

Источник на английском

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.