Кто такой дата-сайентист?
Умение работать с технологиями Big Data – редкий и ценный навык, открывающий перед вами перспективу стать супервостребованным и высокооплачиваемым специалистом. Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist — самая сексуальная профессия XXI века».
Вообще-то Data Scientist — профессия, окруженная разными мифами. В глазах одних Data Scientists — это подобие шаманов, способных из «больших данных добывать нефть», причем знаний в области бизнеса от них не требуется. Другие причисляют к этой профессии вообще почти любого программиста: умеешь программировать — умеешь работать с данными.
Data Scientist — это специалист, владеющий тремя группами навыков:
- IT-грамотность — программирование, придумывание и решение алгоритмических задач, владение софтом;
- Математические и статистические знания;
- Содержательный опыт в какой-то области — понимание бизнес-запросов своей организации или задач своей отрасли науки.
Причем вакансии, подразумевающие эту специализацию, могут называться по-разному. Среди самых популярных названий — аналитик Big Data, математик или математик-программист, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик, BI-аналитик, информационный аналитик, специалист Data Mining, инженер по машинному обучению и многие другие.
Лучший багаж знаний и навыков для работы в этой области можно получить в высших учебных заведениях по направлениям: «Прикладная математика», «Информатика», «Математическая статистика». Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.
Специализации в Data Science
3 основных направления, по которым можно развиваться в области обработки данных:
- Data Engineer
- Data Scientist
- Data Manager
Data Engineer
Инженер – это тот, кто спроектирует такую систему обработки данных, которая сможет переварить петабайты данных и не лопнуть. Он знает все современные технологии и подходы в области обработки данных: MapReduce, Hadoop, Spark, Aerospike, Redis, Storm и т.д.
Он очень уверенно владеет командной строкой, знает, как разрабатывать отказоустойчивые решения, умеет настраивать красивые графики и понимать, что все в порядке c системой. Он легко может понять, где нужно использовать традиционные подходы, а где не обойтись без методов работы с большими данными (Big Data).
Data Scientist
Data Scientist умеет находить закономерности в больших массивах данных, хорошо знает область машинного обучения, уверенно владеет такими инструментами, как R, Weka, Python + Scikit-Learn + Pandas. Именно Data Scientist умеет извлекать из данных максимальную пользу и проектировать алгоритмы, которые будут давать ответы на нужные вопросы.
Область Data Science сама по себе довольно широкая, и в ней можно выделить еще несколько специализаций:
-
- «Классический» Data Mining – позволяет решать такие задачи, как кредитный скоринг, прогнозировать вероятность брака при производстве, рассчитывать вероятность клика пользователем по баннеру.
- Text Mining – позволяет находить закономерности в тексте, автоматически определять его тематику, понимать по посту в социальной сети – был он окрашен позитивно или негативно.
- Обработка изображений – позволяет находить образы на фото, распознавать текст на картинке, определять, есть ли у пациента рак, на основе анализа рентгеновского снимка – и многое другое. Именно в этой области сейчас правят бал нейросети и глубокое обучение.
- Обработка аудиосигнала – в последнее время мы все привыкли говорить «OK, Google, что идет в кино?».
- Рекомендательные системы – задачи из этой области позволяют подобрать для пользователя фильм, книгу или товар, которые максимально соответствуют его интересам.
Data Manager
Специалист, в задачи которого не входит непосредственная разработка продукта. Однако он обязан представлять себе область, чтобы грамотно управлять проектом.
Он должен знать, что можно сделать при помощи современных технологий, а что – нельзя, уверенно владеть терминологией предметной области, а также иметь хороший навыки в техниках управления проектами (agile, SCRUM, экстремальное программирование и им подобных).
Где можно работать
Крупные IT компании, исследовательские подразделения крупных компаний (банки, аудиторские компании «большой четверки», телеком-операторов, крупные ритейл-сети), стартапы в области обработки данных.