1. Большие Данные: с чего начать

    Сегодня компании используют Big Data для углубленного взаимодействия с клиентами, оптимизации операций, предотвращения угроз и мошенничества. За последние два года такие компании, как IBM, Google, Amazon, Uber, создали сотни рабочих мест для программистов и Data science. Область больших данных слишком размылась на просторах интернета, и это может быть очень сложной...
  2. Отбор информативных признаков

    Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных...
  3. Фреймворки для машинного обучения

    Apache Spark MLlib Apache Spark больше всего известен благодаря своей причастности к семейству Hadoop. Но этот фреймворк для обработки данных внутри памяти (in-memory) появился вне Hadoop, и до сих пор продолжает зарабатывать себе репутацию за пределами этой экосистемы. Spark превратился в привычный инструмент для машинного обучения благодаря растущей библиотеке алгоритмов,...
  4. Бесплатные программы для глубинного обучения

    Фреймворки, библиотеки программ и отдельные программы для глубинного обучения. Apache SINGA BigDL Caffe Deeplearning4j Dlib Keras MatConvNet Microsoft Cognitive Toolkit MXNet OpenNN TensorFlow Theano Torch И ещё несколько вариантов (часть из них могут быть платными):   adnn – Javascript neural networks Blocks – Theano framework for building and training neural networks Caffe2 –...
  5. Инструменты для сбора и анализа данных Твиттера

    An overview of tools for 2017 Tool OS Get it Platforms* Audiense Web-based https://buy.audiense.com/trial/new (offers 14 day trial) Twitter Boston University Twitter Collection and Analysis Toolkit (BU-TCAT) Web-based http://www.bu.edu/com/research/bu-tcat Twitter Chorus Windows (Desktop advisable) http://chorusanalytics.co.uk/chorus/request_download.php (free) Twitter COSMOS Project Windows; MAC OS X http://socialdatalab.net/software (free) Twitter DiscoverText Web-based http://discovertext.com (3 day trial) Twitter; Facebook;...
  6. Как оценивать модели?

    In today’s Digital age,  insights received from data science are extremely important to deliver the best customer experience. Data Scientists use various techniques such as Regression, SVM, Neural network, Nearest neighbor, Naive Bayes, Decision Tree and Ensemble models. These algorithms help to identify previously unrecognized patterns and trends hidden within...
  7. Инструменты для очистки данных

    Как говорится, чистые данные существуют только в учебниках. Большинство имеющихся данных неструктурированы, содержат много потерянных элементов, могут содержать дубликаты и прочие «мусорные» значения. Поэтому одним из важнейших, базовых и часто самых трудоёмких этапов анализа данных является их очистка. Но есть полезные инструменты, которые приходят на помощь при очистке данных. Рассмотрим...
  8. Data Science инструменты для тех, кто не умеет кодить

    Вообще-то кодинг является важной частью data science, но всё-таки без этого можно обойтись, используя соответствующие вспомогательные инструменты (но лучше уметь кодить). Итак, вот список таких инструментов: 1. RapidMiner RapidMiner (RM) was originally started in 2006 as an open-source stand-alone software named Rapid-I. Over the years, they have given it the name of RapidMiner and...
  9. Текст майнинг: инструменты

    Интеллектуальный анализ текстов (англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает...
  10. Инструменты визуализации данных

    Инструментов для обработки данных сейчас полным полно, но особое место среди них занимают инструменты/сервисы визуализации — ведь грамотное, красивое, понятное представление данных играет важнейшую роль в принятии решений на основе проведённого анализа. Предлагаем вам список 30 простых (часто бесплатных) инструмента визуализации данных. Альбом можно посмотреть здесь. 1. iCharts iCharts is...

Data Scientist # 1

Data science, большие данные, наука о данных, анализ данных, маркетинг, искусственный интеллект, бизнес-аналитика, business intelligence, data scientist, data analysis, artificial intelligence, big data, data mining.

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2018 Data Scientist. Все права защищены.