Закат Big Data

Предлагаем ознакомиться с одним из мнений, почему нас ждёт закат Big Data и закат ли это.
Вот некоторые мысли/заметки/цитаты/утверждения (Источник).

Gartner в в августе 2015 года исключил Big Data из числа прорывных технологий (emerging technologies) и удалил её с графика Hype Cycle. В исследовании, озаглавленном “The Demise of Big Data, Its Lessons and the State of Things to Come” («Смерть Больших Данных, извлеченные уроки и ситуация в будущем»), говорится, что это было сделано, чтобы перевести дискуссию о Больших Данных из области спекуляций в практическую плоскость.

уход биг даты

Что ж, термин действительно оказался очень емким и прилипчивым – о Больших Данных вдруг заговорили даже те, у кого их кот наплакал, какие-то сотни гигабайт. Данные растут! Сенсация! На стенку лезет пресса! О Big Data стали писать специализированные и деловые издания, даже гламурные журналы. Вполне закономерно, что это привело к профанации термина, и серьезные заказчики стали его чураться. Наступила полная путаница – BI это тоже Big Data или нет? Хранилища данных и аналитические инструменты – это один рынок или разные? И так далее. В итоге, в Gartner решили с 2015 года выпускать пять отдельных «циклов ажиотажа», которые более четко очерчивают несколько предметных областей, связанных с хранением, управлением и анализом данных:
• Advanced Analytics and Data Science;
• Business Intelligence and Analytics;
• Enterprise Information Management;
• In-Memory Computing Technology;
• Information Infrastructure.

Пусть это выглядит более скучно, чем Big Data, но так будет лучше. Только едва ли публика так легко расстанется с полюбившейся ей игрушкой. Big Data = Big Marketing. Мы еще много-много-много раз услышим знакомые заклинания, что нас окружают пета-экза-зетта-йота-байты и надо с этим что-то делать!

Иллюзия простоты: любой вопрос – любой ответ

Вторая беда с Big Data была в ее обманчивой простоте. По крайней мере так это преподносилось широкой аудитории. Возьмите все ваши данные, загрузите в Hadoop (благо он бесплатный) и наслаждайтесь — скрытые прежде закономерности проявятся сами собой.

Помните, на заре Big Data, году в 2008 появился сервис Google Flu Trends (GFT), который вроде как регистрировал начало эпидемии гриппа быстрее и точнее, чем врачи? В его основе лежало предположение, что, когда приходит грипп, люди начинаю активно искать в интернете лекарства и статьи про способы лечения, поток запросов, связанных с гриппом резко возрастает, а из анализа этих данных можно сделать вывод об уровне распространения вируса в каком-то регионе. Красивая идея, но, увы, ложная. Это стало окончательно ясно в 2013 году, когда GFT ошибся с определением пика эпидемии на 140%. И все потому, что под этим не было никакой внятной математической модели, лишь допущения на уровне здравого смысла. Увы, этого недостаточно, чтобы давать точный прогноз. Корпорация Google тихо похоронила проект, а люди – на то они и люди – одни (кто не прочитал свежих публикаций) по-прежнему преподносят GFT как торжество Big Data, а другие – как полный провал. (Например, вот)

У этой истории есть еще и вторая сторона: кто сказал, что данные медиков абсолютно точны и достоверны? Ведь грипп – это же просто клондайк для фармкомпаний, продавцов марлевых масок и всей структуры здравоохранения. Потому что как только официально объявлена эпидемия, тут же выделяются дополнительные средства из бюджета на борьбу с ней. Как вы, наверное, догадываетесь, есть много возможностей манипулирования статистическими данными, чтобы заинтересованным сторонам добиться нужного результата. А телевидение и СМИ еще больше раскачивают ситуацию. Так что, на самом деле при помощи GFT мы анализируем не распространение вируса, а лишь уровень озабоченности людей гриппом, что далеко не одно и то же. То есть, это инструмент социологии, а не медицины.

Ведь, как известно, нет ничего практичнее хорошей теории! Поэтому все эти забавы с цифрами могут дать результат, который совпадет с реальностью лишь по воле случая. Например, из графика прошлых колебаний цены на нефть совершенно не следует, какой она окажется в будущем. (Просто ради интереса – сравните прогнозы аналитиков с фактическими данными. Будет 50/50, если не хуже.)

Отлично показывает ущербность статистических моделей Нассим Талеб, рассказывая об ошибке индюшки: «Мясник откармливает индюшку тысячу дней; с каждым днем аналитики все больше убеждаются в том, что мясники любят индюшек «с возрастающей статистической достоверностью». Мясник продолжает откармливать индюшку, пока до Дня благодарения не останется несколько суток. Тут мясник преподносит индюшке сюрприз, и она вынуждена пересмотреть свои теории – именно тогда, когда уверенность в том, что мясник любит индюшку, достигла апогея и жизнь индюшки вроде бы стала спокойной и удивительно предсказуемой.»

Индюшка

Некоторые шутят, что data scientist–это аналитик, живущий в Калифорнии, но вообще-то требования к этим специалистам различаются, аналитик и «ученый по данным» – это не одно и то же. Объединяет же их академическое любопытство, способность делать выводы и доходчиво о них рассказывать.

Data scientist

От Big Data к продвинутой аналитике

Термины приходят и уходят, не всегда точно отражая суть вещей. Пускай говорить Big Data стало немодно, однако сами задачи никуда не делись – все равно нужно хранить весьма большие объемы данных, управлять ими и, самое главное, – извлекать из них знания, получать ответы на самые разнообразные запросы. Причем делать все нужно максимально быстро. Аналитика как область профессиональной деятельности была, есть и будет. Новые инструменты будут востребованы – и не только статистические. На подходе когнитивные семантические технологии и искусственный интеллект. Да какое там на подходе! Фанаты IBM Watson организуют кампанию по выдвижению его в президенты США!

С другой стороны, будет расширяться круг пользователей, аналитические технологии будут встроены во многие продукты и станут незаметными для людей – как сегодня мы не замечаем, скажем уровень сетевых протоколов и другие инфраструктурные вещи. Они просто есть и работают. Также и аналитика из умственного упражнения для избранных превратится в сугубо утилитарную технологию, тем не менее, пронизывающую все сферы деятельности.

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.