您现在的位置是:首页 > 技术教程 正文

Python DrissionPage 爬虫 linux 部署说明 centos

admin 阅读: 2024-03-21
后台-插件-广告管理-内容页头部广告(手机)

目前 DrissionPage 是装在 linux centos 系统上面的 浏览器用的是115版本最新的chrome 浏览器

DrissionPage 插件官网地址:http://g1879.gitee.io/drissionpagedocs/

1,安装

pip3 install DrissionPage
  • 1

2,表示引入主程序

from DrissionPage import ChromiumPage
  • 1

3,设置调用浏览器地址 只需要执行一次生成配置文件即可

from DrissionPage.easy_set import set_paths
  • 1

#表示调用浏览器的地址是多少
Windows 地址示例

set_paths(browser_path=r'C:/Users/AAA/AppData/Local/Google/Chrome/Application/chrome.exe') #windows的直接找chrome.exe文件
  • 1

Linux 地址示例

set_paths(browser_path=r'/opt/google/chrome/google-chrome') #一般linux安装的google浏览器默认都在这个目录
  • 1

4,最重要的一步 设置不显示浏览器调用访问,只需要在linux环境上打开注释即可

from DrissionPage.easy_set import set_headless, set_paths set_headless(True)
  • 1
  • 2

5,最重要的一步

程序必须引入此配置表示无头加载
在这里插入图片描述

6,ini配置说明

默认windows是不需要管的,只需要linux的时候设置一下注意端口不要冲突和chromedriver地址即可
服务器linux地址为

/usr/local/python3/lib/python3.7/site-packages/DrissionPage/configs
  • 1

在这里插入图片描述

1,表示chrome对应版本的 chromedriver地址
2,表示debug模式启动的端口,注意如果部署了selenium 端口不要冲突了 默认是9222 修改成9211或者其他都可以
3,表示chrome对应的安装地址,一般不需要动

ini配置代码

[paths] chromedriver_path = /mkl/weipu/chromedriver-linux64/chromedriver download_path = [chrome_options] debugger_address = 127.0.0.1:9211 binary_location = /opt/google/chrome/google-chrome arguments = ['--no-first-run', '--no-sandbox', '--disable-infobars', '--disable-popup-blocking', '--headless=new'] extensions = [] experimental_options = {'prefs': {'profile.default_content_settings.popups': 0, 'profile.default_content_setting_values': {'notifications': 2}}} page_load_strategy = normal user = Default auto_port = False system_user_path = False [session_options] headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/603.3.8 (KHTML, like Gecko) Version/10.1.2 Safari/603.3.8', 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'connection': 'keep-alive', 'accept-charset': 'GB2312,utf-8;q=0.7,*;q=0.7'} [timeouts] implicit = 10 page_load = 30 script = 30 [proxies] http = https =
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23

7,代码示例说明

import time import re import math from DrissionPage import ChromiumPage from DrissionPage.easy_set import set_paths from DrissionPage import ChromiumOptions from DrissionPage.easy_set import set_headless, set_paths set_headless(True) #必须要加这个 表示在linux上无头加载 co = ChromiumOptions() co.set_argument('--incognito') co.set_argument('--no-sandbox'); #set_paths(browser_path=r'/opt/google/chrome/google-chrome') #set_paths(browser_path=r'C:/Users/AAA/AppData/Local/Google/Chrome/Application/chrome.exe') def start_test_spider(auth_name,institution_name,status_type): # 用 d 模式创建页面对象(默认模式) page = ChromiumPage() # 跳转到登录页面 page.get('https://xxx.com/') time.sleep(1) #选择点击事件 可以使用 xpath: 后面的是xpath路径 page.ele('xpath://*[@id="basic_searchdomainfilter"]/div[1]/div[1]/div[1]/div/div/input').click() #这里为input的输入的内容 根据xpath page.ele('xpath://*[@id="basic_searchdomainfilter"]/div[1]/div[1]/div[2]/input').input('输入的内容') #关闭浏览器 page.close_tabs()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

在线投稿:投稿 站长QQ:1888636

后台-插件-广告管理-内容页尾部广告(手机)
关注我们

扫一扫关注我们,了解最新精彩内容

搜索