本书包括3部分:第1部分介绍机器学习的基本概念,它们是机器学习的预备知识;第2部分系统介绍几种成熟的机器学习算法和技术;第3部分介绍贯穿整个机器学习工作流程的21个最佳案例,并且讨论具有前瞻性的方法和想法,它们被公认为是机器学习未来的研究重点。本书中的代码均在Python 3中测试通过。本书适合高等院校相关专业的大学生、研究生或教师阅读学习,以及不具有机器学习或统计背景但是想要快速补充机器学习算法知识,以便在实际产品或平台中应用的软件工程师。Copyright Packt Publishing 2019First published in the English language under the title“Python Machine Learning By Example-Second Edition-(9781789616729)”Copyright in the Chinese language(simplified characters) 2021 China Machine PressThis title is published in China by China Machine Press with license from Packt Publishing Ltd.This edition is authorized for sale in China only, excluding Hong Kong SAR, Macao SAR and Taiwan.Unauthorized export of this edition is a violation of the Copyright Act.Violation of this Law is subject to Civil and Criminal Penalties.本书由Packt Publishing Ltd授权机械工业出版社在中华人民共和国境内(不包括香港、澳门特别行政区及台湾地区)出版与发行。未经许可的出口,视为违反著作权法,将受法律制裁。北京市版权局著作权合同登记图字:01-2019-5823号。
人们之所以会对机器学习产生浓厚的兴趣,是因为它可以通过学习数据中的模式,并利用这些模式做出预测和决策,从而革命性地实现自动化。如果你对机器学习感兴趣,本书可以作为你的入门书籍。本书是《Python机器学习案例教程》的第2版,从介绍Python库的重要概念和实现开始,每章都会引导你了解一个行业使用的应用程序。你可以通过简单易懂的方式在探索性数据分析、特征工程和自然语言处理(Natural Language Processing,NLP)等领域中应用机器学习技术。本书将帮助你学习如何解决数据驱动的问题,并利用简单而强大的Python语言、流行的Python包和工具(如TensorFlow、scikit-learn库、Gensim和Keras)解决问题。为了帮助你理解流行的机器学习算法,本书使用了许多有趣且简单的示例,如新闻主题建模和分类、垃圾邮件检测和股票价格预测。通过本书,你将对机器学习的体系结构有一个全面的了解,并熟练掌握如何应用机器学习技术来迎接新的机会和挑战。本书受众如果你是一个对机器学习有浓厚兴趣的数据分析师或者是一个对机器学习充满激情的数据工程师,那么本书就是为你准备的。如果你之前已经了解并掌握Python编码的基础知识和统计学基本概念,将对学习本书很有帮助。但是如果你不了解上述知识和概念,也没关系。本书包含的内容第1章,机器学习和Python入门,这将是读者进入Python机器学习领域的起点。本章将介绍机器学习的基本概念,其余部分将在之后的章节探讨。此外,本章还将讨论Python机器学习的基础知识,并解释如何在后续的示例和项目中正确运用它。第2章,使用文本分析技术研究20组新闻数据集。本章将开发本书的个项目,研究和挖掘20组新闻数据集。该项目拆分为两章:第2章——使用文本分析技术研究20组新闻数据集及第3章——使用聚类和主题建模算法挖掘20组新闻数据集。在本章中,读者将熟悉本项目相关的NLP和各种NLP库的使用以及几个重要的NLP技术如何在NLTK中实现。此外,还将介绍降维技术,特别是t-SNE在文本数据可视化中的应用。第3章,使用聚类和主题建模算法挖掘20组新闻数据集。在研究了20组新闻数据集之后,继续上一章的新闻组项目。在本章中,读者将学习无监督学习中的聚类算法和一些先进的NLP技术,如LDA和词嵌入。使用k均值算法对新闻组数据进行聚类,并使用NMF和LDA进行主题检测。第4章,使用朴素贝叶斯检测垃圾邮件,开始监督学习之旅。本章将重点讨论如何使用朴素贝叶斯算法分类,并将其实现。本章还将介绍机器学习领域中的其他重要概念,如分类性能评估、模型选择和调优以及交叉验证。本章后将演示垃圾邮件检测等示例。第5章,使用支持向量机对新闻组主题进行分类。本章将重用在第2章和第3章中使用过的数据集,也将介绍多元分类、支持向量机以及它们在主题分类中的应用。本章还将提到一些其他重要的概念,如内核机、过拟合和正则化。第6章,使用基于树的算法预测在线广告点击率。本章在解决广告点击率问题的过程中,将深入介绍和解释决策树和随机森林。此外,还将介绍基于树模型的重要概念,如集合、特征重要性和特征选择。第7章,使用逻辑回归预测在线广告点击率。本章将介绍和解释前几章中关于同一项目的逻辑回归分类。此外,还将介绍其他概念,如分类变量编码、L1和L2正则化、特征选择、在线学习和随机梯度下降以及如何处理大型数据集。第8章,将预测扩展到TB级点击日志。本章将介绍在线广告点击率预测,在一个典型的大型机器学习问题中,有数以百万计的标签样本,本章将利用诸如Apache Hadoop和Spark等强大的并行计算工具来探索一个比前几章更完善的解决方案。此外,还将介绍Spark的基本概念,如安装、RDD和核心编程以及机器学习组件。使用整个数百万个样本的数据集探索数据,构建分类模型,执行特征工程,并使用Spark进行性能评估,这在一定程度上扩大了计算范围。第9章,使用回归算法预测股票价格。本项目的目的是利用雅虎/谷歌的财务数据以及其他可能的附加数据来分析和预测股票的市场价格。本章从金融领域遇到的挑战开始,并简要解释相关概念;紧接着获取和探索数据集,并在探索性数据分析后开始特征工程;核心部分将介绍回归和回归算法、线性回归、决策树、SVR以及神经网络。你还将练习使用scikit-learn库和TensorFlow API解决回归问题。第10章,机器学习案例。本章涵盖了机器学习中的案例。学习本书介绍的多个项目之后,你将对Python的机器学习体系结构有一个大致的了解。但是,你一旦开始处理实际项目,仍然会遇到一些问题。本章主要在整个机器学习流程中提供21种案例,既为读者的学习提供保障,也为读者处理项目提供指引。充分利用这本书你需要具备Python的基本知识、基础的机器学习算法以及一些Python库,如TensorFlow和Keras,这样可以使你的项目模型更加简单。下载示例代码文件你可以下载本书的示例代码文件,网址为www.packt.com。如果是在其他地方购买了这本书,可以访问www.packt.com/support并注册,文件将直接通过电子邮件发送给你。按照以下步骤下载代码文件:1)登