Предпосылки к изучению data science начались с курсов статистики и эконометрики. Предлагаю вашему вниманию книги по data science, с которыми я в той или иной степени ознакомился и которые помогают понять как исследовать данные, для чего это нужно и как это использовать в бизнесе (содержания многих книг пересекаются, но интересны, по-своему, своими примерами и манерой изложения). Для удобства список разбит на несколько разделов (по направлению), но в главном разделе источники могут пересекаться (проранжированно в произвольном порядке). Некоторые книги изданы на русском и английском. Все книги доступны на Амазоне (англ.), на Озоне и в Лабиринте (русск.). И да, стоят они недёшево (хотя некоторые из них доступны бесплатно, смотрите снизу источники из LeanPub). Самые интересные я себе покупал, но большинство из них брал в библиотеке университетов, в которых учился или с которыми сотрудничаю.
I. Литература по data science (наука о данных)
1. Data Science for Business. Foster Provost, Tom Fawcett.
2. Doing Data Science. Rachel Schutt, Cathy O’Neil.
3. Agile Data Science. Russell Jurney.
4. Applied Data Science. Ian Langmore, Daniel Krasner.
5. О чем говорят цифры. Как понимать и использовать данные. Томас Дэвенпорт, Ким Хо.
Keeping Up With The Quants: Your Guide to Understanding and Using Analytics. Thomas H. Davenport, Jinho Kim.
6. Аналитика как конкурентное преимущество. Том Дэвенпорт и Джон Харрис.
7. Sexy Little Numbers: How to Grow Your Business Using the Data You Already Have. Maex Dimitri, Paul B. Brown.
Ключевые цифры: Как заработать больше, используя данные, которые у вас уже есть. Димитри Маекс, Пол Браун
8. Data Smart: Using Data Science to Transform Information into Insight. John W. Foreman.
Много цифр: Анализ больших данных при помощи Excel. Джон Форман.
9. Data Analysis with Open Source Tools. Philipp K. Janert.
10. Data Scientists at Work. Sebastian Gutierrez.
11. Data Science For Dummies. Lillian Pierson.
12. Data Science at the Command Line. Jeroen Janssens.
13. Data Science from Scratch. Joel Grus.
14. Learning to Love Data Science: Explorations of Emerging Technologies and Platforms for Predictive Analytics, Machine Learning, Digital Manufacturing, and Supply Chain Optimization. Mike Barlow.
15. Data Science in R: A Case Studies Approach to Computational Reasoning and Problem Solving. Deborah Nolan, Duncan Temple Lang.
16. Parallel Computing for Data Science with Examples in R, C++ and CUDA. Norman Matloff.
17. Practical Data Science with R. Nina Zumel, John Mount.
18. Introducing Data Science: Big Data, Machine Learning, and more, using Python Tools. Davy Cielen, Arno D.B. Meysman, Mohamed Ali.
19. Practical Data Science Cookbook: 89 hands-on recipes to help you complete real-world data science projects in R and Python. Tony Ojeda, Sean Patrick Murphy, Benjamin Bengfort, Abhijit Dasgupta.
20. Data Analytics: Models and Algorithms for Intelligent Data Analysis. Thomas A. Runkler.
21. Clean Data: Save time by discovering effortless strategies for cleaning, organizing, and manipulating your data. Megan Squire.
II. Книги по Big Data (большие данные)
1. Big data at work: dispelling the myths, uncovering the opportunities. Thomas H. Davenport.
2. Real-Time Big Data Analytics: Emerging Architecture. Mike Barlow.
3. Big Data Analytics with Spark. Mohammed Guller.
4. Big Data Glossary. Pete Warden.
5. Big Data For Dummies. Judith Hurwitz, Alan Nugent, Dr. Fern Halper, and Marcia Kaufman.
6. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Viktor Mayer-Schönberger, Kenneth Cukier.
Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. Виктор Майер-Шенбергер и Кеннет Кукьер.
7. Taming the Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics. Bill Franks.
Укрощение больших данных: Как извлекать знания из массивов информации с помощью глубокой аналитики. Билл Фрэнкс.
8. Big Data Analytics: From Strategic Planning to Enterprise Integration with Tools, Techniques, NoSQL, and Graph. David Loshin.
9. The Analytics Revolution: How to Improve Your Business By Making Analytics Operational In The Big Data Era. Bill Franks.
Революция в аналитике: Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики. Билл Френкс.
10. Getting a Big Data Job For Dummies. Jason Williamson.
11. Hadoop For Dummies. Robert D. Schneider.
12. Hadoop: The Definitive Guide. Tom White.
Hadoop: Подробное руководство. Том Уайт.
13. Learning Spark: Lightning-Fast Big Data Analysis. Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia.
Изучаем Spark: молниеносный анализ данных. Карау Х., Конвински Э., Венде П., Захария М.
14. Advanced Analytics with Spark. Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills.
15. Big data: using smart big data, analytics and metrics to make better decisions and improve performance. Bernard Marr.
16. Big Data: Principles and Best Practices of Scalable Real-time Data Systems. Nathan Marz, James Warren.
17. Новые методы работы с большими данными: победные стратегии управления в бизнес- аналитике: Научно-практический сборник. Под редакцией доктора технических наук, профессора А. В. Шмида. — М.: ПАЛЬМИР, 2016.
III. Книги по Data Mining (дата майнинг, интеллектуальный анализ данных)
1. Data mining: practical machine learning tools and techniques. Ian H. Witten, Eibe Frank, Mark A. Hall.
2. A Practical Guide to Data Mining for Business and Industry. Andrea Ahlemeyer-Stubbe, Shirley Coleman.
3. Learning Data Mining with R: Develop key skills and techniques with R to create and customize data mining algorithms. Bater Makhabel.
4. Data Mining Algorithms: Explained Using R. Paweł Cichosz.
5. Data Mining and Business Analytics with R. Johannes Ledolter.
6. Data Mining For Dummies. Meta. S. Brown.
7. Data mining for business intelligence: concepts, techniques, and applications in Microsoft Office Excel with XLMiner. Galit Shmueli, Nitin R. Patel, Peter C. Bruce.
8. Data mining: concepts and techniques. Jiawei Han, Micheline Kamber, Jian Pei.
9. Programming Collective Intelligence. Toby Segaran.
Программируем коллективный разум. Тоби Сегаран.
10. Data mining with R: learning with case studies. Luis Torgo.
11. Mining the Social Web. Matthew A. Russell.
12. Commercial data mining: processing, analysis and modeling for predictive analytics projects. David Nettleton.
13. R and Data Mining: Examples and Case Studies. Yanchang Zhao.
14. Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery. Graham Williams.
15. Data Mining. Чубукова И.А.
16. Бизнес-аналитика: от данных к знаниям. Паклин Н.Б., Орешков В.И.
17. Mastering Social Media Mining with R: Extract valuable data from social media sites and make better business decisions using R. Sharan Kumar Ravindran, Vikram Garg.
18. Social Media Mining with R: Deploy cutting-edge sentiment analysis techniques to real-world social media data using R. Nathan Danneman, Richard Heimann.
19. Mining of Massive Datasets. Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman.
IV. Книги по Machine Learning (машинное обучение)
1. Machine Learning: the Art and Science of Algorithms that Make Sense of Data. Peter Flach.
Машинное обучение: наука и искусство построения алгоритмов, которые извлекают знания из данных. Петер Флах.
2. Building Machine Learning Systems with Python. Luis Pedro Coelho, Willi Richert.
Построение систем машинного обучения на языке Python. Луис Педро Коэльо, Вилли Ричарт.
3. Machine Learning with Spark: Create scalable machine learning applications to power a modern data-driven business using Spark. Nick Pentreath.
V. Книги по R
1. Getting Started with RStudio. John Verzani.
2. Learning Predictive Analytics with R: Get to grips with key data visualization and predictive analytic skills using R. Eric Mayor.
3. Mastering Data Analysis with R: Gain clear insights into your data and solve real-world data science problems with R – from data munging to modeling and visualization. Gergely Daróczi.
4. Parallel R. Q. Ethan McCallum and Stephen Weston.
5. R in Action: Data analysis and graphics with R. Robert I. Kabacoff.
VI. Книги по Python
1. Python for Data Analysis. Wes McKinney.
Python и анализ данных. Уэс Маккинли.
2. Python Data Analysis: Learn how to apply powerful data analysis techniques with popular open source Python modules. Ivan Idris.
3. Python Machine Learning: Unlock deeper insights into machine learning with this vital guide to cutting-edge predictive analytics. Sebastian Raschka.
4. Python in Practice: Create Better Programs Using Concurrency, Libraries, and Patterns. Mark Summerfield.
Python на практике: создание качественных программ с использованием параллелизма, библиотек и паттернов. Марк Саммерфилд.
VII. Книги по Business Intelligence и Visualization (визуализация)
1. Business intelligence and the cloud: strategic implementation guide. Michael S. Gendron.
2. Oracle Business Intelligence: The Condensed Guide to Analysis and Reporting. Yuli Vasiliev.
3. Visual Intelligence: Microsoft Tools and Techniques for Visualizing Data. Mark Stacey, Joe Salvatore, Adam Jorgensen.
4. Communicating Data with Tableau. Ben Jones.
5. Creating Data Stories with Tableau Public: Illustrate your data in a more interactive and interesting way using Tableau Public. Ashley Ohmann, Matt Floyd.
6. Data Visualization For Dummies. Mico Yuk, Stephanie Diamond.
7. Graph Analysis and Visualization: Discovering Business Opportunity in Linked Data. Richard Brath, David Jonker.
8. Interactive Data Visualization for the Web. Scott Murray.
9. Learning QlikView Data Visualization: Visualize and analyze data with the most intuitive business intelligence tool, QlikView. Karl Pover.
10. Python Data Visualization Cookbook: Over 60 recipes that will enable you to learn how to create attractive visualizations using Python’s most popular libraries. Igor Milovanović.
11. SAS Programming and Data Visualization Techniques: A Power User’s Guide. Philip R. Holland.
12. Tableau Dashboard Cookbook: Over 40 recipes on designing professional dashboards by implementing data visualization principles. Jen Stirrup.
13. Visualizing Data. Ben Fry.
14. Storytelling with Data: A Data Visualization Guide for Business Professionals. Cole Nussbaumer Knaflic
VIII. Книги по базам данных и Data Warehousing
1. Database systems: a practical approach to design, implementation, and management. Connolly, Thomas M., Carolyn E. Begg.
2. Beginning Database Design Solutions. Rod Stephens.
3. Build Your Own Database Driven Web Site Using PHP & MySQL. Kevin Yank.
4. Databases for Small Business: Essentials of Database Management, Data Analysis, and Staff Training for Entrepreneurs and Professionals. Anna Manning.
5. Databases: A Beginner’s Guide. Andrew J. Oppel.
6. Building a Data Warehouse: With Examples in SQL Server. Vincent Rainardi.
7. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. Ralph Kimball, Margy Ross.
8. NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence. Pramod J. Sadalage, Martin Fowler.
NoSQL: новая методология разработки нереляционных баз данных. Прамодкумар Дж. Садаладж, Мартин Фаулер.
9. Understanding SQL. Martin Gruber.
SQL для простых смертных. Мартин Грабер.
IX. Книги по Information Retrieval (информационный поиск)
1. Web Information Retrieval. Stefano Ceri, Alessandro Bozzon, Marco Brambilla, Emanuele Della Valle, Piero Fraternali, Silvia Quarteroni.
2. Search Patterns. Peter Morville, Jeffery Callender.
3. An Introduction to Information Retrieval. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze.
Введение в информационный поиск. Кристофер Д. Меннинг, Прабакар Рагаван, Генрих Шетзе.
X. Бесплатные книги по data science из LeanPub (узнал про них из курсов data science на Coursera)
1. The Art of Data Science. A Guide for Anyone Who Works with Data. Roger D. Peng, Elizabeth Matsui.
2. The Elements of Data Analytic Style. A guide for people who want to analyze data. Jeff Leek.
3. Developing Data Products in R. Brian Caffo.
4. Executive Data Science. A Guide to Training and Managing the Best Data Scientists. Brian Caffo, Roger D. Peng, Jeffrey Leek.
5. Exploratory Data Analysis with R. Roger D. Peng.
6. The Hitchhiker’s Guide to Ggplot2 in R. Jodie Burchell, Mauricio Vargas.
7. Statistical inference for data science. A companion to the Coursera Statistical Inference Course. Brian Caffo.
8. Advanced linear models for data science. Brian Caffo.
9. How to be a modern scientist. Jeffrey Leek.
10. Regression Models for Data Science in R. A companion book for the Coursera Regression Models class. Brian Caffo.
11. Report Writing for Data Science in R. Roger D. Peng.
12. R Programming for Data Science. Roger D. Peng.