Python爬虫超详细讲解(零基础入门,老年人都看的懂)
后台-插件-广告管理-内容页头部广告(手机) |
通过XPath信息,我们就可以用简单的代码将其爬取下来了:
import requests from lxml import etree #我们邀抓取的页面链接 url='https://book.douban.com/subject/1084336/comments/' #用requests库的get方法下载网页 r=requests.get(url).text #解析网页并且定位短评 s=etree.HTML(r) file=s.xpath('//*[@id="comments"]/ul/li/div[2]/p/text()') #打印抓取的信息 print(file)- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
爬取的该页面所有的短评信息
当然如果你需要爬取异步加载的网站,可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化,这样,知乎、时光网、猫途鹰这些动态的网站也基本没问题了。
这个过程中你还需要了解一些Python的基础知识:
文件读写操作:用来读取参数、保存爬下来的内容
list(列表)、dict(字典):用来序列化爬取的数据
条件判断(if/else):解决爬虫中的判断是否执行
循环和迭代(for ……while):用来循环爬虫步骤
3.了解非结构化数据的存储
爬回来的数据可以直接用文档形式存在本地,也可以存入数据库中。
开始数据量不大的时候,你可以直接通过 Python 的语法或 pandas 的方法将数据存为text、csv这样的文件。还是延续上面的例子:
用Python的基础语言实现存储:
with open('pinglun.text','w',encoding='utf-8') as f: for i in file: print(i) f.write(i)- 1
- 2
- 3
- 4
用pandas的语言来存储:
#import pandas as pd #df = pd.DataFrame(file) #df.to_excel('pinglun.xlsx')- 1
- 2
- 3
这两段代码都可将爬下来的短评信息存储起来,把代码贴在爬取代码后面即可。
存储的该页的短评数据
当然你可能发现爬回来的数据并不是干净的,可能会有缺失、错误等等,你还需要对数据进行清洗,可以学习 pandas 包的基本用法来做数据的预处理,得到更干净的数据。以下知识点掌握就好:
- 缺失值处理:对缺失数据行进行删除或填充
- 重复值处理:重复值的判断与删除
- 空格和异常值处理:清楚不必要的空格和极端、异常数据
- 分组:数据划分、分别执行函数、数据重组
4.掌握各种技巧,应对特殊网站的反爬措施
爬取一个页面的的数据是没问题了,但是我们通常是想爬取多个页面啊。
这个时候就要看看在翻页的时候url是如何变化了,还是以短评的页面为例,我们来看多个页面的url有什么不同:
- 1
- 2
- 3
- 4
- 5
通过前四个页面,我们就能够发现规律了,不同的页面,只是在最后标记了页面的序号。我们以爬取5个页面为例,写一个循环更新页面地址就好了。
for a in range(5): url="http://book.douban.com/subject/1084336/comments/hot?p={}".format(a)- 1
- 2
当然,爬虫过程中也会经历一些绝望啊,比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。
遇到这些反爬虫的手段,当然还需要一些高级的技巧来应对,常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。
比如我们经常发现有的网站翻页后url并不变化,这通常就是异步加载。我们用开发者工具取分析网页加载信息,通常能够得到意外的收获。
通过开发者工具分析加载的信息
比如很多时候如果我们发现网页不能通过代码访问,可以尝试加入userAgent 信息。
浏览器中的userAgent信息
在代码中加入userAgent信息
往往网站在高效开发和反爬虫之间会偏向前者,这也为爬虫提供了空间,掌握这些应对反爬虫的技巧,绝大部分的网站已经难不到你了。
5.学习爬虫框架,搭建工程化的爬虫
掌握前面的技术一般量级的数据和代码基本没有问题了,但是在遇到非常复杂的情况,可能仍然会力不从心,这个时候,强大的 scrapy 框架就非常有用了。
scrapy 是一个功能非常强大的爬虫框架,它不仅能便捷地构建request,还有强大的 selector 能够方便地解析 response,然而它最让人惊喜的还是它超高的性能,让你可以将爬虫工程化、模块化。
学会 scrapy,你可以自己去搭建一些爬虫框架,你就基本具备爬虫工程师的思维了。
6.学习数据库基础,应对大规模数据存储
爬回来的数据量小的时候,你可以用文档的形式来存储,一旦数据量大了,这就有点行不通了。所以掌握一种数据库是必须的,学习目前比较主流的 MongoDB 就OK。
MongoDB 可以方便你去存储一些非结构化的数据,比如各种评论的文本,图片的链接等等。你也可以利用PyMongo,更方便地在Python中操作MongoDB。
因为这里要用到的数据库知识其实非常简单,主要是数据如何入库、如何进行提取,在需要的时候再学习就行。
7.分布式爬虫,实现大规模并发采集
爬取基本数据已经不是问题了,你的瓶颈会集中到爬取海量数据的效率。这个时候,相信你会很自然地接触到一个很厉害的名字:分布式爬虫。
分布式这个东西,听起来非常吓人,但其实就是利用多线程的原理让多个爬虫同时工作,需要你掌握 Scrapy + MongoDB + Redis 这三种工具。
Scrapy 前面我们说过了,用于做基本的页面爬取,MongoDB 用于存储爬取的数据,Redis 则用来存储要爬取的网页队列,也就是任务队列。
所以不要被有些看起来很高深的东西吓到了。当你能够写分布式的爬虫的时候,那么你可以去尝试打造一些基本的爬虫架构了,实现一些更加自动化的数据获取。
你看,这一条学习路径下来,你已然可以成为老司机了,非常的顺畅。所以在一开始的时候,尽量不要系统地去啃一些东西,找一个实际的项目(开始可以从豆瓣、小猪这种简单的入手),直接开始就好。
因为爬虫这种技术,既不需要你系统地精通一门语言,也不需要多么高深的数据库技术,高效的姿势就是从实际的项目中去学习这些零散的知识点,你能保证每次学到的都是最需要的那部分。
当然唯一困难的是,刚开始没有经验的时候,在寻找资源、搜索解决问题的方法时总会遇到一些困难,因为往往在最开始,我们去描述清楚具体的问题都很难。如果有大神帮忙指出学习的路径和解答疑问,效率会高不少。
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
朋友们如果需要这份完整的资料可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
一、Python学习大纲
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、入门学习视频
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、python副业兼职与全职路线
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。
在线投稿:投稿 站长QQ:1888636
后台-插件-广告管理-内容页尾部广告(手机) |