《玩转Python网络爬虫》 - 黄永祥 - 清华大学出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』玩转Python网络爬虫

書城自編碼： 3209536
分類：簡體書→大陸圖書→計算機/網絡→程序設計
作者：黄永祥
國際書號(ISBN)： 9787302503286
出版社：清华大学出版社
出版日期： 2018-08-01

書度/開本： 16开釘裝：平装

售價：HK$ 98.0

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《何以中国·何谓唐代：东欧亚帝国的兴亡与转型》
售價：HK$ 87.4

《一间只属于自己的房间女性主义先锋伍尔夫代表作女性精神独立与经济独立的象征，做自己，比任何事都更重要》
售價：HK$ 44.6

《泉舆日志幻想世界宝石生物图鉴》
售價：HK$ 134.2

《养育女孩：官方升级版》
售價：HK$ 50.4

《跨界：蒂利希思想研究》
售價：HK$ 109.8

《千万别喝南瓜汤（遵守规则绘本）》
售價：HK$ 44.7

《大模型启示录》
售價：HK$ 112.0

《东法西渐：19世纪前西方对中国法的记述与评价》
售價：HK$ 201.6

建議一齊購買：

HK$ 84.9
《人工智能入门与实战使用Raspberry Pi和Pytho》

HK$ 169.0
《Python测试驱动开发使用Django Selenium》

HK$ 140.6
《虫术——Python绝技》

HK$ 113.9
《Python自然语言处理实战：核心技术与算法》

HK$ 140.6
《Python 3网络爬虫开发实战》

HK$ 69.6
《Python 3爬虫、数据清洗与可视化实战》

編輯推薦：

本书站在初学者的角度，从原理到实践，深入、系统地阐述了使用Python 3开发网络爬虫的核心技术，全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。
基础篇主要介绍了编写网络爬虫所需的基础知识，包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析。数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识。数据清洗主要介绍字符串操作、正则表达式和Beautiful Soup的使用。数据入库分别讲述了MySQL和MongoDB的操作，通过ORM框架SQLAlchemy实现数据持久化，实现企业级开发。
实战篇深入讲解了分布式爬虫、爬虫软件的开发与应用、12306抢票程序和微博爬取，所举实例均来自于编者的开发实践，可帮助读者快速提升技能，开发自己的实际项目。
爬虫框架篇主要讲述Scrapy的原理和特性，通过爬取QQ音乐实例，介绍Scrapy在网络爬虫中的应用技巧。本部分内容可使读者深入地了解Scrapy的使用，并举一反三，编写出复杂的网络爬虫程序。
本书既介绍编写网络爬虫的各种技术，又注重以网络爬虫和网

內容簡介：

本书站在初学者的角度，从原理到实践，循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识，分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网络做全面分析；数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识；数据清洗主要介绍字符串操作、正则和Beautiful Soup的使用；数据入库分别讲述了MySQL和MongoDB的操作，通过ORM框架SQLAlchemy实现数据持久化，实现企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件开发与应用、12306抢票程序和微博爬取，所举示例均来自于开发实践，可帮助读者快速提升技能，开发实际项目。框架篇主要讲述Scrapy的基础知识，并通过爬取QQ音乐为实例，让读者深层次了解Scrapy的使用。
本书内容丰富，注重实战，适用于从零开始学习网络爬虫的初学者，或者是已经有一些网络爬虫编写经验，但希望更加全面、深入理解Python爬虫的开发人员。

關於作者：

黄永祥，信息管理与信息系统专业学士，曾从事过系统开发和自动化开发，精通BS和CS自动化测试技术，多年网络爬虫开发经验，对反爬虫机制有独到的见解，精通Flask、Django等Web框架并有丰富的网站开发经验。曾就职于广州易点科技有限公司，担任Python开发工程师，目前就职于广东数据集成有限公司。热爱分享和新技术的探索，在CSDN上发表多篇Python技术文章。

目录
第1章?理解网络爬虫 1
1.1 爬虫的定义 1
1.2 爬虫的类型 2
1.3 爬虫的原理 3
1.4 爬虫的搜索策略 5
1.5 反爬虫技术及解决方案 6
1.6 本章小结 8
第2章?爬虫开发基础 9
2.1
HTTP与HTTPS 9
2.2 请求头 11
2.3
Cookies 13
2.4
HTML 14
2.5 JavaScript
16
2.6
JSON 18
2.7
Ajax 19
2.8 本章小结 20
第3章?Chrome分析网站 21
3.1
Chrome开发工具 21
3.2
Elements标签 22
3.3
Network标签 23
3.4 分析QQ音乐 27
3.5 本章小结 29
第4章?Fiddler抓包工具 30
4.1
Fiddler介绍 30
4.2
Fiddler安装配置 31
4.3
Fiddler抓取手机应用 33
4.4
Toolbar工具栏 36
4.5
Web Session列表 37
4.6
View选项视图 40
4.7
Quickexec命令行 41
4.8 本章小结 42
第5章?Urllib数据抓取 43
5.1
Urllib简介 43
5.2 发送请求 44
5.3 复杂的请求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 证书验证 50
5.7 数据处理 51
5.8 本章小结 52
第6章?Requests数据抓取 54
6.1
Requests简介及安装 54
6.2 请求方式 55
6.3 复杂的请求方式 57
6.4 下载与上传 60
6.5 本章小结 63
第7章?验证码识别 64
7.1 验证码类型 64
7.2
OCR技术 66
7.3 第三方平台 69
7.4 本章小结 72
第8章?数据清洗 74
8.1 字符串操作 74
8.2 正则表达式 78
8.3
Beautiful Soup介绍及安装 84
8.4
Beautiful Soup的使用 86
8.5 本章小结 90
第9章?文档数据存储 92
9.1
CSV数据写入和读取 92
9.2 Excel数据写入和读取 94
9.3
Word数据写入和读取 99
9.4 本章小结 101
第10章?ORM框架 104
10.1
SQLAlchemy介绍 104
10.2
安装SQLAlchemy 105
10.3
连接数据库 106
10.4
创建数据表 108
10.5
添加数据 111
10.6
更新数据 112
10.7
查询数据 114
10.8
本章小结 116
第11章?MongoDB数据库操作 118
11.1
MongoDB介绍 118
11.2
安装及使用 120
11.2.1
MongoDB 120
11.2.2
MongoDB可视化工具 121
11.2.3
PyMongo 123
11.3
连接数据库 123
11.4
添加文档 125
11.5
更新文档 126
11.6
查询文档 127
11.7
本章小结 130
第12章?项目实战：爬取淘宝商品信息 131
12.1
分析说明 131
12.2
功能实现 134
12.3
数据存储 136
12.4
本章小结 138
第13章?项目实战：分布式爬虫QQ音乐 139
13.1
分析说明 139
13.2
歌曲下载 140
13.3
歌手和歌曲信息 145
13.4
分类歌手列表 148
13.5
全站歌手列表 150
13.6
数据存储 152
13.7
分布式概念 154
13.7.1
GIL是什么 154
13.7.2
为什么会有GIL 154
13.8
并发库concurrent.futures 155
13.9
分布式爬虫 157
13.10
本章小结 159
第14章?项目实战：爬虫软件
淘宝商品信息 161
14.1
分析说明 161
14.2
GUI库介绍 162
14.3
PyQt5安装及环境搭建 162
14.4
软件界面开发 165
14.5
MVC视图 169
14.6
MVC控制器 171
14.7
MVC模型 172
14.8
扩展思路 173
14.9
本章小结 174
第15章?项目实战：12306抢票 176
15.1
分析说明 176
15.2
验证码验证 177
15.3
用户登录与验证 181
15.4
查询车次 187
15.5
预订车票 193
15.6
提交订单 196
15.7
生成订单 204
15.8
本章小结 209
第16章?项目实战：玩转微博 219
16.1
分析说明 219
16.2
用户登录 220
16.3
用户登录（带验证码） 232
16.4
关键字搜索热门微博 240
16.5
发布微博 247
16.6
关注用户 253
16.7
点赞和转发评论 257
16.8
本章小结 263
第17章?Scrapy爬虫框架 265
17.1
爬虫框架 265
17.2
Scrapy的运行机制 267
17.3
安装Scrapy 268
17.4
爬虫开发快速入门 270
17.5
Spiders介绍 277
17.6
Spider的编写 278
17.7
Items的编写 282
17.8
Item Pipeline的编写 284
17.9
Selectors的编写 288
17.10
文件下载 291
17.11
本章小结 296
第18章?项目实战：Scrapy爬取QQ音乐 298
18.1
分析说明 298
18.2
创建项目 299
18.3
编写setting 300
18.4
编写Items 301
18.5
编写Item Pipelines 302
18.6
编写Spider 305
18.7
本章小结 310

內容試閱：

前言随着大数据和人工智能的普及，Python的地位也变得水涨船高，许多技术人员投身于Python开发，其中网络爬虫是Python最为热门的应用领域之一。在爬虫领域，Python可以说是处于霸主地位，Python能解决爬虫开发过程中所遇到的难题，开发速度快且支持异步编程，大大缩短了开发周期，因此，学习Python爬虫编程，或为爬虫工程师的必备技能。本书结构本书共分18章，各章内容概述如下：第1章介绍什么是网络爬虫、爬虫的类型和原理、爬虫搜索策略和反爬虫技术以及解决方案。第2章讲解爬虫开发的基础知识，包括HTTP协议、请求头和Cookies的作用、HTML的布局结构、JavaScript的介绍、JSON的数据格式和Ajax的原理。第3章介绍使用Chrome开发工具分析爬取网站，重点介绍开发者工具的Elements和Network标签的功能和使用方式，并通过开发者工具分析QQ网站。第4章主要介绍Fiddler抓包工具的原理和安装配置，Fiddler用户界面的各个功能及使用方法。第5章讲述了Urllib在Python 2和Python 3的变化及使用，包括发送请求、使用代理IP、Cookies的读写、HTTP证书验收和数据处理。第6章介绍Python第三方库Requests的安装和使用，包括发送请求、使用代理IP、Cookies的读写、HTTP证书验收和文件下载与上传。第7章介绍验证码的种类和识别方法，包括OCR的安装和使用、验证码图片处理和使用第三方平台识别验证码。第8章讲述数据清洗的三种方法，包括字符串操作（截取、查找、分割和替换）、正则表达式的使用和第三方库Beautiful Soup的安装以及使用。第9章讲述如何将数据存储到文件，分别介绍了CSV、Excel和Word的读写方法及数据存储。第10章介绍ORM框架SQLAlchemy的安装及使用，实现关系型数据库持久化存储数据，这是企业级的关系型数据库操作。第11章讲述非关系型数据库MongoDB的操作，介绍MongoDB的安装、原理结构和Python实现MongoDB读写。第12章介绍爬取淘宝商品信息实例，包括网站分析、数据抓取、数据清洗以及存储在CSV文件中，读者应掌握爬虫的开发流程。第13章介绍爬取QQ音乐全站歌曲实例，包括网站分析、数据抓取和实现SQLAlchemy存储歌曲信息并下载文件，使用异步编程实现分布式开发，提高爬取效率。第14章是在第12章的基础上实现爬虫软件开发，包括PyQt5的安装、使用Qt Designer设计软件界面、搭建MVC开发架构。第15章实现12306抢票爬虫开发，包括用户登录、查询车次、预订车票、提交订单和生成订单的分析以及功能实现。第16章介绍微博爬虫开发，包括微博登录、采集热门微博、发布微博、关注微博用户和转发评论的分析以及功能实现。第17章介绍Scrapy爬虫框架，包括Scrapy的运行机制、安装、项目创建以及各个组件的编写（Setting、Items、Item Pipelines和Spider）和文件下载。第18章介绍Scrapy爬取QQ音乐全站歌曲实例，包括编写Spider实现数据抓取、Item Pipelines实现歌曲信息存储和歌曲下载、Items定义数据存储对象和Setting配置项目设置。本书特色循序渐进，知识全面：本书站在初学者的角度，围绕Python网络爬虫开发展开讲解，从初学者必备基础知识着手，循序渐进地介绍了使用Python 3开发网络爬虫的各种知识，内容难度适中，由浅入深，实用性强，覆盖面广，条理清晰，且具有较强的逻辑性和系统性。实例丰富，扩展性强：本书采用大量的实例进行讲解，力求通过实际操作使读者更容易地掌握爬虫开发。本书实例都经过作者精心设计和挑选，根据作者的实际开发经验总结而来，涵盖了在实际开发中所遇到的各种问题。对于精选案例，都尽可能做到步骤详尽、结构清晰、分析深入浅出，而且案例的扩展性强，读者可根据实际需求扩展开发。基于理论，注重实践：在讲解过程中，不仅介绍理论知识，而且安排了综合应用实例或小型应用程序，将理论应用到实践中，加强读者的实际开发能力，巩固开发技能和相关知识。源码提供本书的实例源码可以在百度网盘下载。在线服务读者在学习或者工作的过程中，读者对象本书主要适合以下读者阅读：Python网络爬虫初学者以及在校学生。Python初级爬虫工程师。从事数据抓取的技术人员。其他学习Python网络爬虫的开发人员。虽然笔者力求本书更臻完美，但由于水平所限，难免会出现错误，特别是实例中爬取的网站可能随时更新，导致源码在运行过程中出现问题，欢迎广大读者和高手专家给予指正，笔者将十分感谢。
编者 2018年1月

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　大陸用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.