Заблуждения из data science

1. Корреляция = причинность. Большие данные = информация и инсайты, потому что контекст не имеет значения.

2. Ошибка базового процента (игнорирование базового уровня) актуальна только для малых выборок.

3. Драгирование данных (data dredging) отрицательно коррелирует с размером совокупности данных, т.е. количество ложных корреляций уменьшается с ростом размерности набора данных.

4. В науке о данных прошлое предопределяет будущее. Предположения при моделировании могут быть приняты за правду в последней инстанции после проведения эксперимента, а величины распределены нормально, если не указано иное.

5. Тестирование гипотез и случайная выборка при планировании эксперимента не являются обязательными. Безусловно, данные в реальном мире не имеют «утечек» при проведении кросс-валидации.

6. Экстраполяция за пределы диапазона обучающих данных, особенно в случае временных рядов, отлично описывает данные, если выборка достаточно велика.

7. Сильные признаки (основания) — это тоже самое, что и доказательство. Интервалы прогнозирования и доверительные интервалы одно и то же, так же, как статистическая значимость и практическая значимость.

8. Выбранная система мер (измерений) не изменит всю систему. Увеличение числа признаков повышает значимость и точность модели.

9. Переобучение/дообучение модели может быть проведено независимо от компромисса между смещением и дисперсией.

10. Переименование аналитического департамента в департамент Data Science даст вашей компании существенный рост и новые прорывные технологии уже на следующий день.

Как-бы-автор: Ретсо Григорьев

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.