10 правил работы с Big Data

Применение Big Data в городах – в каком-то смысле анонимный краудсорсинг: эти массивы данных отражают и визуализируют модели поведения и запросы населения. Вот 10 правил, помогающих современным городам применять большие данные и правильно с ними работать.

1. Анализ до постановки гипотезы
Когда у тебя на руках оказывается большой набор данных, нужно прежде всего их внимательно изучить и понять, что это за данные и к каким результатам они могут привести. Для традиционного исследования важно сначала поставить перед собой вопрос, а уже потом собирать данные, которые могут как подтвердить, так и не подтвердить исходную гипотезу. Большие данные исследователь получает уже готовыми, поэтому сначала важно проанализировать, какие данные у тебя на руках, иначе в процессе работы может оказаться, что эти данные никак не помогут ответить на первоначальные вопросы исследования.

2. Поможет любая визуализация
Для анализа данных в большинстве случаев полезно их визуализировать, а потом уже сделать выводы из этой визуализации. Например, для транспортных данных можно сделать картографию, и это поможет лучше понять, что происходит на разных участках города. Выводы из этого самого первичного анализа (в данном случае – визуализации) как раз укажут на основные проблемы, которые впоследствии с помощью этих данных можно будет решать. После этой первичной обработки можно будет думать над решением конкретных проблем, а не работать с большим и голым потоком.

3. Самое сложное – разобраться с алгоритмом
После визуализации нужно выработать алгоритм дальнейшей работы. Как правило, это задача программиста – написать алгоритм, через который эти данные можно будет просеивать. Алгоритм представляет собой одновременно инструмент и метод работы, то есть общую логику работы с данными. В идеале разбираться с алгоритмом должны программисты, если же их нет, можно и собственными силами.

4. Выделяйте ключевые факторы
В больших данных бывает очень сложно определить их границы и их важность: информация о городе, например, на первый взгляд кажется очень однородной. В то же время в этой однородной информации хранятся специализированные ячейки, которые очень трудно отделить друг от друга. Это такая гигиеническая работа – практически очищать зерна от плевел и выделять главное. В идеале нужно понять, как различные факторы в этих данных связаны между собой, а это уже укажет на самые больные точки.

5. Полезно анализировать данные в динамике
Big Data очень быстро устаревает, часто это сиюминутная информация, которая постоянно меняется. Неизвестно, насколько информация на руках исследователя совпадает с ситуацией на сегодняшний день, поэтому в идеале полезно провести анализ нескольких наборов больших данных. Если такой возможности нет, нужно хотя бы понимать эту особенность и анализировать данные более широко.

При этом потенциал материала очень большой: в любой выборке видны тренды как настоящего, так и будущего. Эти данные могут устаревать, но общая тенденция будет сохраняться. Поэтому при сопоставлении матриц, пусть даже недельной давности, можно не только выделять проблемы прошлого, но также влиять на настоящее и даже прогнозировать будущее. И в этом заключается главный вызов больших данных.

6. Постоянно держите в голове возможность ошибки
Работа с большими данными – большой ручной труд. Как бы все ни было автоматизировано и механизировано, всегда существует человеческий фактор. Никто не отменяет вероятность ошибки, а также стремления выдавать желаемое за действительное. Дигитализация общества сильно переоценена: та же работа с большими данными осуществляется прежде всего человеческими руками, а людям свойственно совершать ошибки.

7. Ошибки могут быть и в самом наборе данных
Главная проблема больших данных связана с тем, что в наборе оказывается очень много случайных данных и информация часто дублируется. Информация может многократно повторяться, но из этого не следует обязательный вывод об общем паттерне. Фактор ошибки иногда может быть просто заложен в общие данные, и по этому поводу нужно выработать отдельное правило. Нужно постоянно держать в голове возможность ошибочности отдельных данных – по аналогии с краудсорсингом, где иногда запрос представляет собой случайный вброс или каприз отдельных людей, а не отражает их реальные идеи и потребности.

8. Помните о проблеме усреднения
Нужно стараться обнаруживать общие тренды не только сегодняшнего дня, но и потенциального будущего. Проблема усреднения связана с тем, что за работой со средними показателями трудно разглядеть весь потенциал данных. Можно не разглядеть самой очевидной проблемы, если она засорена общими и средними данными.

9. Не забывайте об этике
Сама работа с Big Data ставит под вопрос границы юридических прав человека, но в одних направлениях работы с большими данными этические вопросы кажутся более проблемными, чем в других. Cамый нейтральный вариант использования Big Data – гуманитарные и городские исследования. Но и здесь возможны свои сложности.

10. Поиск решений
В больших данных очень мало теоретического интереса: работа с ними предполагает практическое решение задач, которые можно даже изобретать в процессе исследования. Ставить проблемы и искать методы их решения можно с помощью анализа тех же самых данных – например, перемещая самые сложные показатели, попробовать их сбалансировать и понять, как эти данные могут сообщаться более эффективно.

Источник

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2020 Data Scientist. Все права защищены.