84 вопроса специалисту по данным

Адаптировано по мотивам этого поста.

1. С каким самым большим массивом данных Вы работали, как обрабатывали эти данные и какие результаты получили?

2. Расскажите о двух своих успешных проектах из области аналитики или IT. Как Вы оценивали его успешность?

3. Что такое: лифт, KPI, надёжность, подгонка модели, планирование эксперимента, правило 80/20?

4. Что такое: совместная фильтрация, n-грамма, mapreduce, косинусное расстояние?

5. Как оптимизировать поискового робота, чтобы ускорить его работу, извлекать более полную информацию и лучше обрабатывать данные для получения более чистых баз данных?

6. Как бы Вы решили задачу по выявлению плагиата?

7. Как определить индивидуальные счета, оплаченные совместно (несколькими пользователями)?

8. Следует ли данные кликов обрабатывать в режиме реального времени? Почему? В каких случаях?

9. Что лучше: хорошие данные или хорошая модель? И как определить критерии хорошего? Существует ли универсальная хорошая модель? Существуют ли модели, которые определённо не очень хороши?

10. Что такое вероятностное объединение (нечеткое объединение)? Это проще работает в SQL или других языках? Какие языки вы бы выбрали для сверки данных полуструктурированного текста?

11. Как Вы работаете с потерянными данными? Какие методы вменения Вы порекомендуете?

12. Какой Ваш самый любимый язык программирования? Почему?

13. Расскажите про 3 достоинства и 3 недостатка Вашего любимого статистического ПО.

14. Сравните SAS, R, Питон, Perl.

15. Что такое проклятие больших данных?

16. Занимались ли Вы проектированием баз данных и моделированием данных?

17. Участвовали ли Вы в разработке dashboard и выборе метрик? Что Вы думаете о проекте BIRT?

18. Какие функции Teradata Вам нравятся?

19. Предположим, что Вы собираетесь отправить миллион электронных писем (в рамках маркетинговой кампании).Как Вы будете оптимизировать доставку? Как Вы будете оптимизировать обработку ответов?

20. Toad, Brio или другие подобные клиенты делают запрос к базе данных Oracle неэффективно. Почему? Как можно увеличить скорость в 10 раз и обрабатывать намного больше данных?

21. Как бы Вы переводили данные из неструктурированного формата в структурированный? Всегда ли это необходимо? Допустимо ли хранить данные как текстовые файлы, а не в SQL-формате в РСУБД?

22. Что такое коллизия хэш-таблица? Как этого избежать? Как часто это происходит?

23. Как убедиться, что приложение MapReduce имеет хорошую балансировку нагрузки? Что такое балансировка нагрузки?

24. Приведите пример, где mapreduce не работает. Пример, где mapreduce очень хорошо работает. Какие существуют проблемы безопасности, связанные с облаком? Что вы думаете о решении EMC, предлагающим гибридный подход — внутреннее и внешнее облако — для уменьшения рисков и других преимуществ (каких именно)?

25. Что лучше: иметь 100 небольших хеш-таблиц или одну большую хеш-таблицу с точки зрения доступа к памяти (например, к оперативной)? Что Вы думаете по поводу аналитики, встроенной в базу данных?

26. Почему наивный байесовский классификатор так плохо работает? Как бы Вы улучшили алгоритм обнаружения спама, который использует наивный Баейс?

27. Вы когда-нибудь работали с белыми списками (в контексте обнаружения спама или мошенничества)?

28. Что такое схема «звезды»? Что такое таблица поиска?

29. Можно ли построить логистическую регрессию в Excel? Будет ли результат быть приемлемым?

30. Оптимизировали ли Вы код или алгоритм для увеличения скорости: в SQL, Perl, C++, Python и др. Как и насколько?

31. Лучше потратить 5 дней на решение проблемы с 90% точностью или 10 дней со 100%? Зависит ли это от контекста?

32. Дайте определения: обеспечение качества, шесть сигм, планирование эксперимента. Приведите пример хорошего и плохого планирования эксперимента.

33. Каковы недостатки общей линейной модели? Вы знакомы с альтернативными вариантами (Lasso, гребневая регрессия, бустинг деревьев)?

34. По Вашему мнению 50 небольших деревьев решений лучше, чем одно большое? Почему?

35. Является ли актуарная наука ветвью статистики (анализа выживаемости)? Если нет, то почему?

36. Приведите примеры данных, распределение которых не является ни Гауссовым, ни лог-нормальным. Приведите примеры данных с очень хаотичным распределением.

37. Почему средний квадрат ошибки является плохой оценкой модели? Что бы Вы предложили взамен?

38. Как можно доказать, что одно улучшение разрабатываемого алгоритма является действительно улучшением. Вы знакомы с A/B тестированием?

39. Что такое анализ чувствительности? Лучше иметь низкую чувствительность (то есть высокую надёжность) или низкую прогностическую мощность? Как сделать кросс-проверку (валидацию)? Что Вы думаете об идее добавления в набор данных шума, чтобы протестировать чувствительность модели?

40. Сравните логистическую регрессию с деревом решений, нейронными сетями. Насколько эти технологии были улучшены за последние 15 лет?

41. Знаете/используете ли Вы методы сжатия данных, отличных от PCA? Что Вы знаете о пошаговой регрессии? С какими методами пошаговой регрессии Вы знакомы? Когда полные данные лучше, чем сжатые данные или выборка?

42. Как бы вы построили непараметрические доверительные интервалы, например, для оценок?

43. Знакомы ли Вы с применением теории экстремальных значений, моделирования методом Монте-Карло или математической статистики (или что-нибудь ещё), для правильной оценки шансов на очень редкое событие?

44. Что такое анализ первопричины? Как отличить причину от корреляции? Приведите примеры.

45. Как бы Вы определили и измерили прогностическую силу некоторой метрики/показателя?

46. Как определить наилучший набор правил для технологии выявления мошенничества? Как работать с правилом избыточности, правилом обнаружения и комбинаторным характером задачи (для нахождения оптимального набора правил — один с лучшей предсказательной силой)? Может ли приближенное решение с набором правил быть хорошим? Как найти хорошее приближенное решение? Как поймёте, что пора остановиться и не искать что-то получше?

47. Как создать таксономию ключевых слов?

48. Что такое ботнет? Как его можно обнаружить?

49. Был ли у Вас опыт работы с API (в том числе с API Google, Amazon)?

50. В каких случаях лучше написать свой собственный код вместо использования готового софта для анализа данных?

51. Какие инструменты Вы используете для визуализации? Что Вы думаете о Tableau? R? SAS? (для построения графиков). Как эффективно изобразить 5 измерений на графике (или в видео)?

52. Что такое проверка концепции (POC – proof of concept)?

53. C каким типом клиентов Вы работали: внешние, местные, продажи/финансы/маркетинг/IT? Имеете ли опыт консультирования? Работали ли Вы с продавцами?

54. Знакомы ли Вы с жизненным циклом разработки ПО? С жизненным циклом IT проекта – от сбора заявок до обслуживания?

55. Что такое крон?

56. Вы пишите код в одиночку? Относите себя к разработчику или архитектору?

57. Лучше иметь слишком много ложно-позитивных или слишком много ложно-негативных?

58. Вы знакомы с оптимизацией ценообразования, ценовой эластичностью, управлением запасами, конкурентной разведкой? Приведи примеры.

59. Как работает алгоритм Зиллова? (для оценки стоимости дома)

60. Как обнаружить фиктивные отзывы или фиктивные профили в Facebook, используемые с плохими намерениями?

61. Как бы Вы создали новую анонимную цифровую валюту?

62. Вы когда-нибудь думали о создании стартапа? На основе какой идеи?

63. Уйдут ли когда-нибудь логины/пароли в прошлое? Чем их можно заменить?

64. Использовали ли Вы модели временных рядов? Кросс-корреляцию с временными лагами? Коррелограммы? Спектральный анализ? Методы обработки сигналов и фильтрацию? В каком контексте?

65. Какими дата-учёными Вы восхищаетесь больше всего? Какими стартапами?

66. Как Вы заинтересовались наукой о данных?

67. Что такое кривая эффективности? Каковы её недостатки и как их можно преодолеть?

68. Что такое рекомендательный движок, рекомендательная система? Как это работает?

69. Что такое точный тест? Как и когда помогает моделирование, если мы не применяем точный тест?

70. Чем занимается хороший дата-учёный?

71. Наука о данных – это наука или искусство?

72. Что такое вычислительная сложность хорошего и быстрого алгоритма кластеризации? Что такое хороший алгоритм кластеризации? Как определить количество кластеров? Как бы вы выполнить кластеризацию миллиона уникальных ключевых слов, если у вас есть 10 миллионов точек данных — каждая из которых состоит из двух ключевых слов, и метрика показывает насколько похожи эти два ключевые слова? Как бы вы создали эту таблицу 10 миллионов точек данных в первую очередь?

73. Приведите несколько примеров “лучших практик” из области науки о данных.

74. Что может сделать график трудно читаемым, трудно интерпретируемым и вводящим в заблуждение? Какие особенности должен иметь полезный график?

75. Знакомы ли Вы с «правилами большого пальца», используемыми в статистике или IT? Или в бизнес-аналитике?

76. Предложите топ-5 прогнозов на ближайшие 20 лет.

77. Как вы узнаете, что статистические данные, опубликованные в статье (например, в газете) либо неверны и представлены для поддержания точки зрения автора, либо корректны и предоставляют фактическую информацию по конкретной теме? Например, что вы думаете об официальной ежемесячной статистике безработицы, которую регулярно обсуждают в прессе? Что могло бы сделать их более точными?

78. Как Вы оцениваете свою интуицию? Сможете ли по графику определить известные формы/шаблоны?

79. Предположим, что Вы формируете надёжную непараметрическую статистику (метрику) взамен корреляции или R квадрату, такую, что она (1) не зависит от размера выборки, (2) всегда находится между -1 и +1, и (3), основана на ранговой статистике. Как вы нормализуете размер выборки? Напишите алгоритм, который вычисляет все перестановки n элементов. Как Вы выберете перестановку (то есть сгенерированы тысячи случайных перестановок), когда n велико, чтобы оценить асимптотическое распределение для вашей вновь созданной метрики? Вы можете использовать эту асимптотическое распределение для нормализации вашей метрики. Как Вы поймёте, что точное теоретическое распределение может существовать, и, следовательно, его нужно найти и использовать, а не тратить время, пытаясь оценить асимптотическое распределение с помощью моделирования?

80. Более сложный технический вопрос, связанный с предыдущим. Существует очевидное взаимно однозначное соответствие между перестановками из n элементов и целыми числами от 1 до n! Разработайте алгоритм, который шифрует целое число меньше n! как перестановку n элементов. Каким будет обратный алгоритм для дешифрования перестановки и преобразования её обратно в число? Подсказка: промежуточный шаг заключается в использовании представления числа в виде факториала.

81. Как посчитать/распознать фейковые отзывы?

82. Что такое машинное обучение и дата майнинг?

83. Можете ли Вы оценить и спрогнозировать продажи какой-нибудь книги на Амазоне?

84. Какие книги Вы читаете по анализу данных, какие блоги читаете, какие посещали конференции, курсы по анализу данных, в каких профессиональных сообществах состоите?

Ответы на некоторые из этих вопросов можно найти здесь.

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.