50 вопросов для проверки знаний по data science

Мы здесь науку о данных будем указывать как «data science». Предлагаем рассмотреть 3 части вопросов, которые помогут проверить знания специалиста по данным (дата-учёного, data scientist). Источник.

Часть I

1. Что такое жизненный цикл проекта в области data science?

2. Как вы оцениваете продуктивность (по сравнению с исходным) результатов нового или усовершенствованного алгоритма и архитектуры?

3. Что такое кросс-валидация (перекрёстная проверка)? Как её сделать правильно?

4. Лучше разрабатывать надёжные (робастные) или точные алгоритмы?

5. Вы писали код? Прототипировали алгоритм? Доказывали концепцию?

6. С каким самым большим объёмом данных Вы работали?

7. Назовите несколько известных API (например, Гугл Поиска).

8. Как эффективно собирать веб-данные или собирать миллионы твитов?

9. Как оптимизировать алгоритмы (параллельной обработки и / или более быстрый алгоритм: приведите примеры)?

10. Приведите примеры NoSQL архитектуры.

11. Как Вы очищаете данные?

12. Как Вы определяете/выбираете метрики? Разрабатывали или использовали сложные метрики?

13. Приведите примеры хорошей и плохой визулизации.

14. Вы принимали участие — в качестве консультанта или архитектора — в разработке панелей мониторинга или сигнализации?

15. Как часто алгоритм должен обновляться?

16. Приведите пример взаимодействия машина-машина.

17. Приведите примеры, где можно автоматизировать повторяющиеся аналитические задачи.

18. Как Вы оцениваете статистическую значимость инсайтов?

19. Как преобразовать неструктурированные данные в структурированные?

20. Как очень эффективно разбить на кластеры 100 миллиардов веб-страниц, например, с помощью тегов или алгоритма индексации?

Часть II

1. Что такое регуляризация и почему она полезна? Каковы преимущества и недостатки конкретных методов, таких как гребневая регрессия и LASSO?

2. Что такое локальный оптимум и почему это важно в определённом контексте, например в методе к-средних (кластеризация)? Какие существуют конкретные способы определения проблемы локального оптимума? Как можно избежать локального оптимума?

3. Предположим, Вам нужно создать прогностическую модель количественного результата некоторой переменной с использованием множественной регрессии. Объясните, как Вы намерены проверить/валидировать эту модель.

4. Объясните, что такое точность и полнота. Как они соотносятся с кривой ROC?

5. Объясните, что такое распределение с длинным хвостом и приведите 3 примера такого распределения. Почему оно играет важную роль в вопросах классификации и прогнозирования?

6. Что такое скрытая семантическая индексация? Для чего её используют? Каковы конкретные ограничения метода?

7. Объясните суть центральной предельной теоремы. Почему она так важна? В каких случаях она не работает?

8. Что такое статистическая мощность?

9. Объясните суть методов повторной выборки и для чего они используются. Какие у них ограничения?

10. Объясните разницу между искусственными нейронными сетями с SoftMax активацией, логистической регрессии и классификатором максимума энтропии.

11. Объясните суть систематической ошибки отбора (в отношении набора данных, а не переменных выбора). Почему это важно? Как процедуры управления данными, такие как обработка потерянных данных, могут только ухудшить работу?

12. Приведите простой пример того, как планирование эксперимента может помочь ответить на вопрос о поведении. Например, объясните, как планирование эксперимента может быть использовано для оптимизации веб-страницы. Как экспериментальные данные сопоставляются с данными наблюдений?

13. Объясните разницу между «длинным» и «широким» форматом данных. Почему Вы используете тот или иной формат?

14. Является ли среднее вменение недостающих данных приемлемой практикой? Почему да или почему нет?

15. Опишите концепцию “графического хлама” Эдварда Тафти.

16. Что такое выброс? Объясните, как можно изобразить/показать выбросы в данных и что Вы будете делать, если обнаружите выбросы в наборе данных. Аналогично, расскажите про вбросы в данных, как их показать и что делать при их обнаружении.

17. Что такое анализ главных компонент (РСА)? Укажите виды задач, в которых используется данный анализ. Какие ограничения есть у этого метода?

18. Предположим, у вас есть данные о продолжительности звонков в колл-центр. Опишите алгоритм/план, как Вы будете анализировать эти данные. Объясните вероятный сценарий того, как может выглядеть распределение этих данных. Как Вы могли бы проверить (даже графически), что ваши ожидания оправдались?

19. Что такое ошибка первого рода (ложно-положительный результат) и ошибка второго рода (ложно-отрицательный результат)? Почему так важно, отделять их друг от друга? Приведите примеры ситуаций, в которых (1) ложно-положительный является более важным, чем ложно-отрицательный, (2) ложно-отрицательный является более важным, чем ложно-положительный, и (3) эти два типа ошибок примерно одинаково важны.

20. Объясните возможные различия между административными наборами данных и наборами данных, полученных в результате экспериментальных исследований. Каковы возможные проблемы, связанные с административными данными? Как экспериментальные методы помогают решать эти проблемы? К каким проблемам они приводят?

Часть III

1. Золотой стандарт в науке о данных.

2. Чем отличается обучение с учителем от обучения без учителя? Приведите конкретные примеры.

3. Для чего нужно НЛП (NLP)?

4. Напишите программу, которая считает количество слов в документе, используя любой язык программирования.

5. Что такое признаковое описание объекта (векторы признака)?

6. В каких случаях Вы бы использовали метод опорных векторов (Support Vector Machine) вместо Случайного Леса (Randon Forest)?

7. Дайте определение большим данным и с каким максимальным объёмом данных Вам приходилось работать? Вы распараллеливали код?

8. Как Вы работаете с большими массивами данных?

9. Напишите mapper-функцию для подсчёта частоты слов (пусть это будет псевдокод).

10. Напишите reducer-функцию для подсчёта частоты слов (пусть это будет псевдокод).

Для некоторых вопросов ответы можно найти на нашем портале (они выделены ссылками, обновляется по мере наполнения). Кроме того, ответы на некоторые из этих вопросов можно найти здесь.

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.