新書推薦:
《
美国小史(揭秘“美国何以成为美国”,理解美国的经典入门读物)
》
售價:HK$
81.4
《
中国古代北方民族史丛书——东胡史
》
售價:HK$
87.8
《
巨人传(插图珍藏本)
》
售價:HK$
705.6
《
地下(村上春树沙林毒气事件的长篇纪实)
》
售價:HK$
76.7
《
偿还:债务与财富的阴暗面
》
售價:HK$
80.2
《
清华大学藏战国竹简校释(壹):《命训》诸篇
》
售價:HK$
94.4
《
封建社会农民战争问题导论(光启文库)
》
售價:HK$
68.4
《
虚弱的反攻:开禧北伐
》
售價:HK$
92.0
|
編輯推薦: |
1.Python数据科学指南,结合数据科学的具体应用场景,由浅入深的引导读者学习。
2.以问题为导向,用具体应用场景讲明白如何选择、使用合适的数据科学工具。
3.以生动的案例引出问题解决方法,提供完整代码和步骤流程,可参考,可上手。
4.深入浅出,对新手友好,本书尽量不使用数学公式和晦涩的术语。
5.提供同步讲解视频,帮助读者加深对书中难点、重点的理解。
|
內容簡介: |
本书结合数据科学的具体应用场景,由浅入深、循序渐进地引导读者入门数据科学,覆盖了数据获取、数据预处理、数据分析等方面的内容,共 10 章。本书先是概括性地介绍各章的主要内容,然后通过一个个生动的案例讲解数据获取、数据预处理、自然语言处理、机器学习和深度学习等方面的应用,结尾通过答疑部分为读者提供进一步学习的方向和方法的建议。本书各章的案例均基于具体应用场景,以简单、清晰的方式对数据科学相关的技术原理和实际操作进行讲解。
|
關於作者: |
王树义 天津师范大学副教授,南开大学博士。研究方向为社交媒体信息分析,基于机器学习的自然语言处理,用户隐私保护,计算社会科学。发表了 20 余篇学术论文,担任多个国际期刊审稿人。 在简书、玉树芝兰公众平台、知乎等平台高质量分享计算机、写作、效率工具等相关内容,粉丝累计近 20 万。 翟羽佳 天津师范大学副教授,数据科学系系主任,南开大学与美国印第安纳大学联合培养博士,武汉大学信息管理学院博士后。2018 年度天津市“131”创新型人才培养工程第三层次人选、2020 年天津市高校“青年后备人才支持计划”人选。长期致力于知识扩散、文本挖掘、网络社会治理以及数据驱动的知识发现等方向的研究。累计发表高水平论文 30 余篇,长期担任多个国际期刊的审稿人。
|
目錄:
|
第 1 章 入门导读
1.1 环境设置
1.2 探索分析
1.3 数据获取
1.4 数据预处理
1.5 自然语言处理
1.6 机器学习
1.7 深度学习
1.8 机器学习进阶
1.9 答疑时间
第 2 章 环境设置
2.1 Python运行环境Anaconda的安装
2.1.1 下载及安装Anaconda
2.1.2 运行Anaconda
2.2 在线运行Python代码
2.2.1 在线运行程序的需求
2.2.2 尝试打开在线程序代码
2.2.3 在线运行Python的实现过程
2.2.4 mybinder的运行原理
2.2.5 小结与思考
2.3 复制运行环境
2.3.1 在线环境的局限
2.3.2 复制运行环境流程
2.3.3 小结与思考
第 3 章 探索分析
3.1 词云制作
3.1.1 安装WordCloud与数据准备
3.1.2 开始制作词云
3.2 中文分词
3.2.1 中文分词的需求
3.2.2 中文分词的操作
3.2.3 准备分词数据
3.2.4 制作中文词云
3.2.5 小结与思考
3.3 用Pandas存取和交换数据
3.3.1 数据格式的问题
3.3.2 数据样例
3.3.3 CSV/TSV格式
3.3.4 pickle格式
3.3.5 JSON格式
3.3.6 小结与思考
3.4 可视化《三国演义》人名与兵器出现频率
3.4.1 读取人名数据
3.4.2 读取《三国演义》文本数据
3.4.3 小结与思考.
3.5 用R语言快速探索数据集
3.5.1 启动Rstudio
3.5.2 使用summarytools包
3.5.3 分析结果解读
3.5.4 小结与思考
3.6 快速了解科研领域
3.6.1 Biblioshiny分析工具
3.6.2 期刊文献数据
3.6.3 作者分析
3.6.4 文献被引用分析
3.6.5 研究主题分析
3.6.6 小结与思考
第 4 章 数据获取
4.1 获取开放数据
4.1.1 获取数据的需求
4.1.2 开放数据的获取
4.2 利用API收集与分析网络数据
4.2.1 API的含义
4.2.2 阿里云云市场
4.2.3 代码运行环境
4.2.4 获取天气数据
4.2.5 分析各地气候
4.2.6 小结与思考
4.3 Python抓取数据
4.3.1 爬虫的概念
4.3.2 抓取目标
4.3.3 爬虫运行环境
4.3.4 爬虫实现过程
4.3.5 小结与思考
第 5 章 数据预处理
5.1 使用正则表达式抽取文本结构化数据
5.1.1 自动抽取的样例
5.1.2 正则表达式
5.1.3 寻找规则
5.1.4 实际匹配操作
5.1.5 小结与思考
5.2 批量抽取PDF文本内容
5.2.1 下载实验数据
5.2.2 设置运行环境
5.2.3 运用PDFMiner抽取数据
5.2.4 小结与思考
5.3 智能批量压缩图片
5.3.1 批量统一处理图片
5.3.2 原始数据
5.3.3 压缩图片的具体过程
5.3.4 将代码整合为函数
5.3.5 小结与思考
5.4 安装Python软件包遇错误,怎么办?
5.4.1 屡次安装失败的遭遇
5.4.2 系统依赖条件
5.4.3 又遇到了新问题
5.4.4 转换思路解决问题
5.4.5 生成PDF词云的过程
5.4.6 小结与思考
第 6 章 自然语言处理
6.1 提取中文关键词
6.1.1 文件编码问题
6.1.2 关键词提取操作
6.1.3 关键词提取原理
6.1.4 小结与思考
6.2 情感分析
6.2.1 安装情感分析依赖包
6.2.2 英文文本情感分析
6.2.3 中文文本情感分析
6.2.4 小结与思考
6.3 评论数据情感分析的时间序列可视化
6.3.1 餐厅评论数据
6.3.2 读取数据并安装依赖包
6.3.3 评论的情感分析可视化
6.3.4 小结与思考
6.4 对故事情节做情绪分析
6.4.1 情绪词典
6.4.2 数据准备
6.4.3 安装R
6.4.4 使用Python做文本数据清理
6.4.5 使用R做情绪分析
6.4.6 小结与思考
6.5 spaCy与词嵌入
6.5.1 spaCy介绍
6.5.2 文本语法结构分析
6.5.3 文本语义分析
6.5.4 小结与思考
第 7 章 机器学习
7.1 机器学习做决策支持
7.1.1 寻找安全贷款的规律
7.1.2 决策树
7.1.3 机器学习
7.1.4 数据准备与运行环境
7.1.5 构建决策树
7.1.6 预测模型的准确率
7.2 中文文本情感分类模型
7.2.1 个性化的情感分析
7.2.2 餐厅评论数据
7.2.3 机器学习中的模型选择
7.2.4 文本向量化
7.2.5 中文的向量化
7.2.6 运行环境
7.2.7 情感分类模型的训练
7.2.8 小结与思考
7.3 从海量文章中抽取主题
7.3.1 信息过载的痛苦
7.3.2 文章主题
7.3.3 安装依赖包
7.3.4 使用LDA抽取主题
7.3.5 小结与思考
第 8 章 深度学习
8.1 如何锁定即将流失的客户
8.1.1 寻找安全贷款的规律
8.1.2 运行环境
8.1.3 数据清理
8.1.4 尝试使用决策树
8.1.5 深度学习游乐场
8.1.6 深度学习框架
8.1.7 尝试使用TensorFlow
8.1.8 深度学习模型评估
8.1.9 小结与思考
8.2 识别动物图像
8.2.1 计算机识别图像
8.2.2 学习数据
8.2.3 配置运行环境
8.2.4 通过Turi Create识别图像
8.2.5 卷积神经网络
8.2.6 小结与思考
8.3 寻找近似图像
8.3.1 近似图像的作用
8.3.2 数据与配置环境
8.3.3 通过Turi Create查找近似图像
8.3.4 迁移学习的原理
8.3.5 小结与思考
8.4 如何理解卷积神经网络
8.5 如何理解循环神经网络
8.6 循环神经网络实现中文文本分类
8.6.1 概念准备
8.6.2 数据环境
8.6.3 数据预处理
8.6.4 词嵌入矩阵
8.6.5 模型构建
8.6.6 分类效果讨论
8.6.7 小结与思考
8.7 循环神经网络预测严重交通拥堵
8.7.1 交通事件数据样例
8.7.2 数据准备与配置环境
8.7.3 训练模型与评估结果
8.7.4 小结与思考
8.8 用TensorFlow神经网络分类表格数据
8.8.1 深度学习框架正在发生变化
8.8.2 实验数据
8.8.3 实验环境配置
8.8.4 模型训练
8.8.5 疑惑
8.8.6 小结与思考
8.9 你的机器“不肯”学习,怎么办?
8.9.1 前情回顾
8.9.2 代码
8.9.3 归一化的重要性
8.9.4 新代码
8.9.5 小结与思考
第 9 章 机器学习进阶
9.1 二元分类任务
9.1.1 监督学习
9.1.2 机器学习的含义
9.1.3 结构化数据
9.1.4 图像信息学习
9.1.5 文本数据学习
9.1.6 调用模型实施
9.2 有效沟通机器学习结果
9.2.1 简单明了的解释
9.2.2 对机器学习的反思
9.2.3 解释学习结果的方法
9.2.4 小结与思考
9.3 机器学习中的训练集、验证集和测试集
9.3.1 准确率高就好吗
9.3.2 测试集
9.3.3 验证集
9.3.4 训练集
9.3.5 小结与思考
第 10 章 答疑时间
10.1 Python编程遇到问题怎么办?
10.1.1 遭遇编程错误
10.1.2 照葫芦画葫芦
10.1.3 照葫芦画瓢
10.1.4 找葫芦画瓢
10.1.5 小结与思考
10.2 如何高效学Python?
10.2.1 你是哪一类人
10.2.2 记忆与实践
10.3 如何高效学习数据科学?
10.3.1 学习的焦虑
10.3.2 以目标为导向的学习
10.3.3 学习的深度
10.3.4 协作的快乐
10.3.5 小结与思考
10.4 数据科学入门后,该做什么?
10.4.1 打开进阶之路
10.4.2 实践中学习
10.4.3 教学中学习
10.4.4 传播中学习
10.4.5 小结与思考
|
|