1. Модули Python для Data Science

    Коллекция модулей языка Python для data science и аналитики. 1. Pandas Pandas is a library written for the Python programming language for data manipulation and analysis. In particular, it offers data structures and operations for manipulating numerical tables and time series. Pandas is free software released under the three-clause BSD...
  2. Применение статистического моделирования: 24 метода

    1. Spatial Models Spatial dependency is the co-variation of properties within geographic space: characteristics at proximal locations appear to be correlated, either positively or negatively. Spatial dependency leads to the spatial auto-correlation problem in statistics since, like temporal auto-correlation, this violates standard statistical techniques that assume independence among observations 2....
  3. Топ-45 методов data science

    Основные методы data science: Linear Regression Logistic Regression Jackknife Regression Density Estimation Confidence Interval Test of Hypotheses Pattern Recognition Clustering — (Unsupervised Learning) Supervised Learning Time Series Decision Trees Random Numbers Monte-Carlo Simulation Bayesian Statistics Naive Bayes Principal Component Analysis — (PCA) Ensembles Neural Networks Support Vector Machine — (SVM)...
  4. Представление данных, хранение и подготовка к анализу

    В данном обзоре мы рассмотрим вопросы предобработки данных (в том числе их очистку), их представление, хранение. Поговорим про форматы данных, типы данных, базы данных и открытые данные. Предобработка данных Зачем данные нуждаются в предобработке? Чистые данные существуют только в учебниках и поэтому перед анализом их необходимо «очистить». Причины «грязноты» данных:
  5. Принцип Бонферрони

    Пусть имеются какие-то данные, и мы ищем в них события определенного вида. Можно ожидать, что такие событие встретятся, даже если данные выбраны абсолютно случайно, а количество событий будет расти вместе с объемом данных. Эти события «фиктивные» в том смысле, что у них нет никакой причины, помимо случайности данных, а в...
  6. Заметки по data science-1

    Заметки по data science. Краткое введение в науку о данных. В частности, рассмотрим ряд определений data science, составные части (наука и данные), выясним, есть ли наука в “науке о данных”, рассмотрим особенности датификации, пирамиду знаний, разберём этапы анализа данных, особенности дата майнинга, проблемы сбора и анализа данных, дата-аналитическое мышление и...
  7. Обзор книги Data Science for Business

    Data science (наука о данных) имеет привлекательное и эффективное приложение в бизнесе. Данных с каждым годом генерируется всё больше и больше, их нужно анализировать, чтобы получить новые инсайты, используя их для повышения эффективности бизнеса. Хорошим примером базового использования data science в бизнесе является книга Data Science for Business авторов Foster...
  8. Обзор книги «Doing Data Science»

    По мнению некоторых экспертов, книга Doing Data Science (авторы: Rachel Schutt and Cathy O’Neil) является одной из базовых по data science, поэтому мы решили рассмотреть её структуру и содержание, понять о чём она и стоит ли её читать. С самого начала авторы делятся своим опытом преподавания data science в Колумбийском...
  9. Life Cycle of Data Science Projects

    1. Identify the problem Identify metrics used to measure success over baseline (doing nothing) Identify type of problem: prototyping, proof of concept, root cause analysis, predictive analytics, prescriptive analytics, machine-to-machine implementation Identify key people within your organization and outside Get specifications, requirements, priorities, budgets How accurate the solution needs to...
  10. Data Science инструменты для тех, кто не умеет кодить

    Вообще-то кодинг является важной частью data science, но всё-таки без этого можно обойтись, используя соответствующие вспомогательные инструменты (но лучше уметь кодить). Итак, вот список таких инструментов: 1. RapidMiner RapidMiner (RM) was originally started in 2006 as an open-source stand-alone software named Rapid-I. Over the years, they have given it the name of RapidMiner and...

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2020 Data Scientist. Все права защищены.