Что такое большие данные?

Под обобщающим термином «большие данные» принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было бы обработать традиционными средствами работы с данными (например, РСУБД – реляционными системами управления базами данных). Единого мнения о том, какой объём считать «достаточно большим», нет, но нужно помнить, что сам термин «большие данные» — это не только про объём данных.

С данным термином связывают концепцию «Volume, Velocity, Variety, Veracity, Value»принципы, на которых строится работа с большими данными. Это непосредственно объем информации, быстродействие её обработки, разнообразие сведений, хранящихся в массиве, достоверность этих данных, а также их ценность. То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

Технологии больших данных можно разбить на несколько основных категорий (экосистема больших данных):

  • Базы данных NoSQL и NewSQL: для хранения огромных объемов данных (NoSQL: MongoDB, MemCache, Hbase, HyperTable, Cassandra, Neo4J; NewSQL: Hive, Impala, BayesDB, Sensei, Drizzle).
  • Распределенная файловая система: для масштабирования и работы на нескольких серверах сразу (HDFS, Red Hat ClusterFS, Apache MapReduce, Apache Pig, Apache Spark).
  • Машинное обучение: извлечение полезных знаний из данных (Mahout, WEKA, SPARK, Python, R).
  • Планирование: для автоматизации повторяющихся операций и запуск заданий по событиям (Oozie, Falcon).
  • Развертывание системы: автоматизация установки и настройки компонентов (новых приложений) в кластерах больших данных (Mesos, HUE, Ambari).
  • Программирование служб: обеспечение доступа к приложениям больших данных как к сервису (Apache Thrift, Zookeper).
  • Безопасность: создание централизованной и высокоточной системы управления доступом к данным (Sentry, Ranger).
  • Интеграция данных: объединение данных, находящихся в разных источниках (Apache Flume, Sqoop, Scribe).

экосистема больших данных

Большие данные встречаются повсеместно как в коммерческих, так и в некоммерческих средах. Количество потенциальных применений огромно и включает в себя такие сферы (но не ограничивается ими): маркетинг, образование, медицина, биология, финансы, безопасность и др.

Источники больших данных: социальные сети, датчики, текст, видео, изображения, логи веб-сайтов, данные масштабных экспериментов, геопространственные данные и др. В большинстве случаев данные неструктурированы или полуструктурированы.

Таким образом, понятие больших данных подразумевает работу с данными огромного объема и разнообразного состава, часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2020 Data Scientist. Все права защищены.