1. Корреляция = причинность. Большие данные = информация и инсайты, потому что контекст не имеет значения.
2. Ошибка базового процента (игнорирование базового уровня) актуальна только для малых выборок.
3. Драгирование данных (data dredging) отрицательно коррелирует с размером совокупности данных, т.е. количество ложных корреляций уменьшается с ростом размерности набора данных.
4. В науке о данных прошлое предопределяет будущее. Предположения при моделировании могут быть приняты за правду в последней инстанции после проведения эксперимента, а величины распределены нормально, если не указано иное.
5. Тестирование гипотез и случайная выборка при планировании эксперимента не являются обязательными. Безусловно, данные в реальном мире не имеют «утечек» при проведении кросс-валидации.
6. Экстраполяция за пределы диапазона обучающих данных, особенно в случае временных рядов, отлично описывает данные, если выборка достаточно велика.
7. Сильные признаки (основания) — это тоже самое, что и доказательство. Интервалы прогнозирования и доверительные интервалы одно и то же, так же, как статистическая значимость и практическая значимость.
8. Выбранная система мер (измерений) не изменит всю систему. Увеличение числа признаков повышает значимость и точность модели.
9. Переобучение/дообучение модели может быть проведено независимо от компромисса между смещением и дисперсией.
10. Переименование аналитического департамента в департамент Data Science даст вашей компании существенный рост и новые прорывные технологии уже на следующий день.
Как-бы-автор: Ретсо Григорьев