Мы собираемся обсудить вопросы аналитики данных на больших масштабах, разобраться с облачными вычислениями (cloud computing), описать методы и инструменты работы с большими объёмами информации и потоками данных. Также обсудим элементы распределённой вычислительной инфраструктуры, сравним опенсорсные и коммерческие решения. Быстро пройдёмся по YARN / Apache 2, Spark, Pig, Storm, MapReduce.
Напомним, что большие данные характеризуются (как один из подходов) такими параметрами как объём, скорость, разнообразие. Всё это требует больших вычислительных мощностей. И здесь можно пойти двумя путями: увеличить мощность компьютера (диск, память, процессор) или использовать несколько компьютеров для распределения вычислений между ними.
**Полная статья доступна только для членов сообщества**