【python】喜欢XJJ?这不得来一波大采集?
后台-插件-广告管理-内容页头部广告(手机) |
前言
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章
俗话说的好:技能学了~就要用在自己喜欢得东西上!!
这我不得听个话~我喜欢小姐姐,跳舞的小姐姐
这不得用python把小姐姐舞采集下来~嘿嘿嘿
完整源码、素材皆可点击文章下方名片获取此处跳转
知识点:
-
采集基本流程
-
re正则表达式简单使用
-
requests
-
json数据解析方法
-
数据保存
采集网站:
开发环境:
-
Python 3.8
-
Pycharm
模块使用:
-
requests >>> pip install requests 第三方模块
-
re
安装模块:win + R 输入cmd 输入安装命令 pip install 模块名
如果出现爆红 可能是因为 网络连接超时 切换国内镜像源
基本流程(固定):
一. 数据来源分析
-
确定采集内容是什么? (目标网址, 网址里面数据)
-
通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得
I. 通过分析可以知道 播放url地址是什么?
II. 通过播放地址, 去分析找寻, 数据包是在哪?
III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容
(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)
IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)
我想要获取播放地址 >>> 要得到数据包 >>> 获取ID
二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据
-
发送请求, 对于舞蹈列表页面发送请求
-
获取数据, 服务器返回数据内容
-
解析数据, 提取我们想要数据内容 ID
-
发送请求, 把ID传入到 数据包里面 发送请求
-
获取数据, 服务器返回数据内容
-
解析数据, 提取我们想要数据内容 标题 以及播放地址
-
保存数据, 把内容保存本地
-
多页数据采集
代码
(完整源码、素材皆可点击此处+获取)
导入模块
# 导入数据请求模块 import requests # 第三方模块 pip install requests 需要自行安装 # 导入re正则表达式 import re # 内置模块 不需要安装 # 导入格式化输出模块 import pprint # 内置模块 不需要安装- 1
- 2
- 3
- 4
- 5
- 6
- 发送请求, 对于舞蹈视频列表页面发送请求
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 获取数据, 服务器返回数据内容 response.text 获取响应文本数据
- 1
- 解析数据, 提取我们想要数据内容 视频ID
- 1
- 2
- 3
- 4
- 5
- 6
-
发送请求, 把视频ID传入到视频数据包里面发送请求
-
获取数据, 服务器返回数据内容
- 1
- 2
- 3
- 4
- 5
- 6
- 解析数据
- 1
- 2
- 保存数据 >>> 发送请求 并且获取数据
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
尾语
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。
在线投稿:投稿 站长QQ:1888636
后台-插件-广告管理-内容页尾部广告(手机) |