您现在的位置是:首页 > 技术教程 正文

Python Spider学习笔记(一):爬取B站视频基本信息

admin 阅读: 2024-03-22
后台-插件-广告管理-内容页头部广告(手机)

 一、创作来源

         最近搞数据分析需要爬取B站上相关视频的内容,但打开两年前的代码却发现已经跑不通了,或者说根本就是漏洞百出。经过一段时间的缝缝补补,我发现是B站的网页代码更换的原因。(应该是吧,不确定哈!)由于当时写代码的时候也是东抄西抄,最后搞得自己也看不懂是什么意思(鬼知道当时的程序怎么跑起来的)。索性从头来过,自己学自己写。

二、第一部分:利用Selenium获取BV_ID

        对于B站视频来说,只要知道了他的BV号就相当于一个人你知道了他的身份证号,想要知晓他的更多的信息也就不是什么难事儿了,因此在本文中,我们要进行的第一步就是获取到我们想要爬取信息的B站视频的身份证——BV_ID。

        这是第一步,也是最关键的一步。这个时候就需要用到selenium这个库,关于这个库的详细介绍和科普可以去别的博客下了解,这里我们不过多赘述。

Selenium库的安装:

pip install selenium

具体使用方法如下:

        引入必要的库

  1. from selenium import webdriver
  2. from selenium.webdriver.common.by import By
  3. from selenium.webdriver.chrome.options import Options

定义一个selenium的爬虫

        这里只用关键词作为形参,其余的部分都可以以这些关键词为核心进行生成

  1. def spider_bvid(keyword):
  2. """
  3. 利用seleniume获取搜索结果的bvid,供给后续程序使用
  4. :param keyword: 搜索关键词
  5. :return: 生成去重的output_filename = f'{keyword}BV号.csv'
  6. """

         首先,定义一个用于写入爬取结果的文件,这里因为数据量大,我选择了csv文件,大家在自己运行的时候,可以选择自己喜欢的文件形式。

        接着设置无界面爬虫,窗口大小并禁用gpu加速,以减少浏览器的内存占用,防止出现浏览器崩溃的情况。

  1. # 保存的文件名
  2. input_filename = f'{keyword}BV号.csv'
  3. # 启动爬虫
  4. options = Options()
  5. options.add_argument('--headless')
  6. options.add_argument('--disable-gpu')
  7. browser = webdriver.Chrome(options=options) # 设置无界面爬虫
  8. browser.set_window_size(1400, 900) # 设置全屏,注意把窗口设置太小的话可能导致有些button无法点击
  9. browser.get('https://bilibili.com')
  10. # 刷新一下,防止搜索button被登录弹框遮住
  11. browser.refresh()
  12. print("============成功进入B站首页!!!===========")

        利用网页元素定位找到B站首页的搜索框和搜索按钮,输入我们要搜索的关键词,确定点击搜索按钮。

  1. input = browser.find_element(By.CLASS_NAME, 'nav-search-input')
  2. button = browser.find_element(By.CLASS_NAME, 'nav-search-btn')
  3. # 输入关键词并点击搜索
  4. input.send_keys(keyword)
  5. button.click()
  6. print(f'==========成功搜索{keyword}相关内容==========')

        成功进入搜索结果页面后,我们本来的技术思路是:1、根据网页元素定位,css、xpath或其他方法定位到页面最下方的页数box和下一页box;2、通过获取最后一页的box中的text值和下一页的text值,利用循环不断模拟点击下一页,从而达到爬取所有结果页面的内容的目的。

        但B站网页代码更改后,显示为34页,网页内容检查后显示为42页(至多),因而会导致页面定位的不同,在我个人运行程序的过程中,出现过第一个关键词搜索可以定位到最大页数box,但是利用循环输入的下一个keyword就无法定位到相同的box。

        因而我们更换思路:B站搜索结果显示的并非全部内容,而是至多一千多个,也就是说页面数最大是42页。因而当我们手动搜索后发现结果页面页数较多时,可以直接设置最大页数为42。

        同样,由于本小白并不会定位这个新的下一页按钮,因而我通过循环输入页码数,拼成搜索的网页URL进而达到与模拟点击下一页相同的效果。但这种操作方法的结果就是会出现重复爬取第情况,因而需要在最后进行去重操作。

        另外值得一说的是,如果各位像研究元素定位到话,我之前看到本站里有一位大佬“潘帕斯的雄鹰”,他写了一个只用selenium进行滚动爬取搜索结果下所有视频的一级、二级评论的博客。代码是开源的,那个里面的定位和断点续爬都做得很好,有时间的话可以研究一下。

  1. # 设置窗口
  2. all_h = browser.window_handles
  3. browser.switch_to.window(all_h[1])
  4. # B站最多显示42页
  5. total_page = 42
  6. # 同样由于B站网页代码的更改,通过找到并点击下一页的方式个人暂不能实现
  7. #(对,不会分析那个破网页!!!)
  8. for i in range(0, total_page):
  9. # url 需要根据不同关键词进行调整内容!!!
  10. # 这里的url需要自己先搜索一下然后复制网址进来
  11. url = (f"https://search.bilibili.com/all?keyword={keyword}"
  12. f"&from_source=webtop_search&spm_id_from='你自己的'&search_source='你自己的'&page={i}")
  13. print(f"===========正在尝试获取第{i + 1}页网页内容===========")
  14. print(f"===========本次的url为:{url}===========")
  15. browser.get(url)
  16. # 这里请求访问网页的时间也比较久(可能因为我是macos),所以是否需要等待因设备而异
  17. # 取消刷新并长时间休眠爬虫以避免爬取太快导致爬虫抓取到js动态加载源码
  18. # browser.refresh()
  19. print('正在等待页面加载:3')
  20. time.sleep(1)
  21. print('正在等待页面加载:2')
  22. time.sleep(1)
  23. print('正在等待页面加载:1')
  24. time.sleep(1)

        能够顺利获取到所有页面结果之后,我们就可以直接分析页面,因为我们只需要获取到BV号就可以,因此并不需要重复爬取一些后面可以轻易获得的数据。

        这里直接使用bs4对页面进行分析,直接定位到card中的herf,获取每个视频的详情页URL,在这个URL中可以拆分出我们需要的BV号。

  1. # 直接分析网页
  2. html = browser.page_source
  3. # print("网页源码" + html) 用于判断是否获取成功
  4. soup = BeautifulSoup(html, 'lxml')
  5. infos = soup.find_all(class_='bili-video-card')
  6. bv_id_list = []
  7. for info in infos:
  8. # 只定位视频链接
  9. href = info.find('a').get('href')
  10. # 拆分
  11. split_url_data = href.split('/')
  12. # 利用循环删除拆分出现的空白
  13. for element in split_url_data:
  14. if element == '':
  15. split_url_data.remove(element)
  16. # 打印检验内容
  17. # print(split_url_data)
  18. # 获取bvid
  19. bvid = split_url_data[2]
  20. # 利用if语句直接去重
  21. if bvid not in bv_id_list:
  22. bv_id_list.append(bvid)
  23. for bvid_index in range(0, len(bv_id_list)):
  24. # 写入 input_filename
  25. write_to_csv_bvid(input_filename, bv_id_list[bvid_index])
  26. # 输出提示进度
  27. print('写入文件成功')
  28. print("===========成功获取第" + str(i + 1) + "次===========")
  29. time.sleep(1)
  30. i += 1
  31. # 退出爬虫
  32. browser.quit()
  33. # 打印信息显示是否成功
  34. print(f'==========爬取完成。退出爬虫==========')

        写入文件后,我们就能得到去重之后的BV号了,下面就可以通过BV号来爬取我们需要的视频的基本信息了。

三、第二部分 Request函数请求访问

        Request函数不用多说,涉及到爬虫的程序大多都会用到,这里也不再赘述。另一方面,使用request函数的原因是bilibili的api开放接口可以轻松地获取到我们想要的信息。

        这里也可以使用bilibili-api库,但本文不使用的原因是:bilibili-api库在获取视频详细信息时需要进行异步请求,但直接在循环中调用异步请求的函数会导致各种报错,小白肯定是无法解决的,哪怕翻阅资料也很难看懂。(对,就是我没看懂。)例如:     aiohttp.client_exceptions.ServerDisconnectedError: Server disconnected、pipe broken等。

        因此这里用比较笨的方法,通过BV号拼接成视频数据api接口的URL在进行访问,返回的页面转成json格式,然后直接读取json字典中的值,进行调用。

        这里想要了解更多B站API接口的,可以去Github上查看。

https://github.com/SocialSisterYi/bilibili-API-collect

        此处的关于视频信息的API接口URL为:

  1. #A EXAMPLE : https://api.bilibili.com/x/web-interface/view?bvid=BV1n24y1D75V
  2. api_url = f'https://api.bilibili.com/x/web-interface/view?bvid={bv_id}'

写在最前面:使用Request函数时,一定要注意时间间隔。如果你的设备接入URL很快,那么可以适当增加间隔,如果接入较慢,可以适当减少间隔。Time.sleep()的数值至少要大于1.5s,不然轻则报错,重则被叔叔封网络IP。(当然,如果真的被封IP了,换个网络环境就行了。比如你在家里用的无线网,那么切换到自己的手机流量热点就可以解决。)

requests.exceptions.SSLError: HTTPSConnectionPool(host='api.bilibili.com', port=443)

        具体的调用代码为:

        首先,我们需要编写我们自己的请求头。User-Agenta是我们自己的网络代理,可以有chrome、firefox等,Cookies就是网站获取到一些记录文件,主要用于识别。这两个值都可以通过网页抓包来获取。以Chrome为例,登录B站后,点开任意一个视频播放后,按下F12(win)或option+command+I(mac)后,进入network部分,尽量找到total?list开头的js文件,里面就可以比较轻松地找到我们需要的这两个值。

        接着,传入BV号后,拼接成可用的URL后,可以自己拼好后先用浏览器打开进行检验和分析一下,以确保URL的有效性。之后,利用json库返回json形式的网页源码。返回的值基本是字典,很好操作。

  1. def get_video_info(bv_id):
  2. headers = {
  3. 'User-Agent': "你的",
  4. 'Cookie': "你的"}
  5. api_url = f'https://api.bilibili.com/x/web-interface/view?bvid={bv_id}'
  6. # 打印本次要获取的bvid,用于错误时确认
  7. print(f"正在进行爬取uid为:{bv_id}的UP主的粉丝数量与作品总数")
  8. print(f"==========本次获取数据的视频BV号为:{bv_id}==========")
  9. print(f"url为:{api_url}")
  10. # https://api.bilibili.com/x/web-interface/view?BV1n24y1D75V
  11. video_info = requests.get(url=api_url, headers=headers)
  12. video_info_json = json.loads(video_info.text)

        得到网页源码后,我们需要的值都存放在"data"标签中,直接根据我们对需要进行调用就可以。我这里是新建了一个字典,进行存储值,大家也可以不用这么麻烦。 对于相关值,英文名对应的中文意义,可以参考这篇知乎专栏的介绍,也可在上面的github文档中进行查看。

  1. # 创建存放的字典
  2. info_dict = {}
  3. # 信息解读
  4. # https://zhuanlan.zhihu.com/p/618885790
  5. # 视频bvid,即bv号
  6. bvid = video_info_json['data']['bvid']
  7. info_dict['bvid'] = bvid
  8. # 视频aid,即av号
  9. aid = video_info_json['data']['aid']
  10. info_dict['aid'] = aid
  11. # 视频cid,用于获取弹幕信息
  12. cid = video_info_json['data']['cid']
  13. info_dict['cid'] = cid
  14. # 作者id
  15. mid = video_info_json['data']['owner']['mid']
  16. info_dict['mid'] = mid
  17. # up主昵称
  18. name = video_info_json['data']['owner']['name']
  19. info_dict['name'] = name
  20. # 视频标题
  21. title = video_info_json['data']['title']
  22. info_dict['title'] = title
  23. # 视频标签
  24. tname = video_info_json['data']['tname']
  25. info_dict['tname'] = tname
  26. # 视频发布时间戳
  27. pubdate = video_info_json['data']['pubdate']
  28. # 转化时间戳
  29. pub_datatime = datetime.fromtimestamp(pubdate)
  30. # 整体格式
  31. pub_datatime_strf = pub_datatime.strftime('%Y-%m-%d %H:%M:%S')
  32. # 日期
  33. date = re.search(r"(\d{4}-\d{1,2}-\d{1,2})", pub_datatime_strf)
  34. info_dict['pub_date'] = date.group()
  35. # 时间
  36. pub_time = re.search(r"(\d{1,2}:\d{1,2}:\d{1,2})", pub_datatime_strf)
  37. info_dict['pub_time'] = pub_time.group()
  38. # 视频创建时间戳
  39. # ctime = info['ctime']
  40. # 视频简介
  41. desc = video_info_json['data']['desc']
  42. info_dict['desc'] = desc
  43. # 视频播放量
  44. view = video_info_json['data']['stat']['view']
  45. info_dict['view'] = view
  46. # 点赞数
  47. like = video_info_json['data']['stat']['like']
  48. info_dict['like'] = like
  49. # 投币数
  50. coin = video_info_json['data']['stat']['coin']
  51. info_dict['coin'] = coin
  52. # 收藏数
  53. favorite = video_info_json['data']['stat']['favorite']
  54. info_dict['favorite'] = favorite
  55. # 分享数
  56. share = video_info_json['data']['stat']['share']
  57. info_dict['share'] = share
  58. # 评论数
  59. repiy = video_info_json['data']['stat']['reply']
  60. info_dict['reply'] = repiy
  61. # 视频弹幕数量
  62. danmaku = video_info_json['data']['stat']['danmaku']
  63. info_dict['danmaku'] = danmaku
  64. print(f'=========={bv_id} 的视频基本信息已成功获取==========')
  65. # 发布作品时的动态
  66. # dynamic = info['dynamic']
  67. print('正在等待,以防访问过于频繁\n')
  68. time.sleep(3)
  69. return info_dict

        如此就返回了带有我们数据的字典,后续可以直接调用。

        获取UP主信息的整体思路相同,这里就不再赘述,直接贴上代码:

        

  1. def get_user_info(uid):
  2. """
  3. 通过uid(即mid)获取UP主的粉丝总数和作品总数
  4. :param uid: mid
  5. :return:user_info_dict
  6. """
  7. # 定义空字典用于存放数据
  8. # 粉丝数 follower
  9. # 作品总数 archive
  10. user_info_dict = {}
  11. # 首先写入请求头
  12. # 设置用户代理 User_Agent及Cookies
  13. headers = {
  14. 'User-Agent': "",
  15. 'Cookie': ""}
  16. # 将传入的的uid组成up主主页的api_url
  17. # A Example: https://api.bilibili.com/x/web-interface/card?mid=1177893348
  18. api_url = f'https://api.bilibili.com/x/web-interface/card?mid={uid}'
  19. # https://api.bilibili.com/x/web-interface/view?BV1n24y1D75V
  20. # 打印次数,数据量大,便于查看进程
  21. print(f"正在进行爬取uid为:{uid}的UP主的粉丝数量与作品总数")
  22. # 打印本次要获取的uid,用于错误时确认
  23. print(f"==========本次获取数据的up主的uid为:{uid}==========")
  24. print(f"url为{api_url}")
  25. # 利用requests进行访问,并返回需要的封装信息
  26. up_info = requests.get(url=api_url, headers=headers)
  27. # 不知道会不会被封ip,保险起见
  28. # time.sleep(2)
  29. # 将数据转化为json格式
  30. up_info_json = json.loads(up_info.text)
  31. # 利用json定位相关数据
  32. fans_number = up_info_json['data']['card']['fans']
  33. user_info_dict['follower'] = fans_number
  34. archive_count = up_info_json['data']['archive_count']
  35. user_info_dict['archive'] = archive_count
  36. print(f'=========={bv_id} 的作者基本信息已成功获取==========\n')
  37. # 等待
  38. print('正在等待,以防访问过于频繁\n')
  39. time.sleep(1.5)
  40. return user_info_dict

四、第三部分 最后的调用

        上面的函数都写好之后,我们只需要创建一个主入口,之后直接调用函数就可以。

  1. if __name__ == '__main__':
  2. # 针对不同内容修改搜索关键词!!!!
  3. keywords = ["1", "2"]
  4. for keyword in keywords:
  5. # 自动爬取多个主题时须注意上面的最大页数定位问题
  6. # 爬取后生成去重了的len(keywords)个f'{keyword}BV号.csv'文件
  7. spider_bvid(keyword)
  8. for keyword in keywords:
  9. # 拼接成文件名
  10. csv_to_merge = f'{keyword}BV号.csv'
  11. # 合并后生成未去重的文件
  12. merge_csv(input_filename=csv_to_merge, output_filename='BV号合并.csv')
  13. # 遍历读取bv_id
  14. filename = 'BV号合并.csv'
  15. # 打开文件并去重
  16. open_csv = pd.read_csv(filename)
  17. open_csv.drop_duplicates(subset='BV号')
  18. bv_id_list = np.array(open_csv['BV号'])
  19. """
  20. # 第一次调用,若读取csv进行爬取时,意外中断
  21. # 则更改为读取txt文本,将已爬取第bvid删除,以达到断点续爬的目的
  22. for bvid in bv_id_list:
  23. with open("bv_id_list.txt", 'a') as f:
  24. f.write(bvid+'\n')
  25. """
  26. with open("bv_id_list.txt", 'r') as f:
  27. bv_id_list = f.readlines()
  28. # 循环写入内容
  29. for i in range(0, len(bv_id_list)):
  30. bv_id = bv_id_list[i]
  31. print(f'正在进行第{i+1}次爬取\n')
  32. # 获取视频所有的基本信息
  33. video_info = get_video_info(bv_id)
  34. bvid = video_info['bvid']
  35. aid = video_info['aid']
  36. cid = video_info['cid']
  37. mid = video_info['mid']
  38. name = video_info['name']
  39. title = video_info['title']
  40. tname = video_info['tname']
  41. pub_date = video_info['pub_date']
  42. pub_time = video_info['pub_time']
  43. desc = video_info['desc']
  44. view = video_info['view']
  45. like = video_info['like']
  46. coin = video_info['coin']
  47. favorite = video_info['favorite']
  48. share = video_info['share']
  49. reply = video_info['reply']
  50. danmaku = video_info['danmaku']
  51. # 传播效果计算公式
  52. Communication_Index = math.log(
  53. 0.5 * int(view) + 0.3 * (int(like) + int(coin) + int(favorite)) + 0.2 * (int(reply) + int(danmaku)))
  54. # 获取作者的相关信息
  55. user_info = get_user_info(uid=mid)
  56. follower = user_info['follower']
  57. archive = user_info['archive']
  58. write_to_csv(filename='视频基本信息.csv', bvid=bvid, aid=aid, cid=cid, mid=mid, name=name, follower=follower,
  59. archive=archive, title=title, tname=tname, pub_date=pub_date, pub_time=pub_time, desc=desc,
  60. view=view, like=like, coin=coin, favorite=favorite, share=share, reply=reply, danmaku=danmaku,
  61. communication_index=Communication_Index)
  62. print(f'==========第{i+1}个BV号:{bv_id}的相关数据已写入csv文件中==========')
  63. print('==================================================\n')

五、完整代码

        需要注明的一些事情:

        1、writr_to_csv()函数是抄的大佬的代码,虽然后面else基本用不到,但是前面的真的很好用,大家可以自己理解一下再改一改。

        2、关于传播效果计算公式,这个是引用自己大佬的论文,如果有需要请注明引用,学术不端是很严重的事情。

        引用:陈强,张杨一,马晓悦,等. 政务 B 站号信息传播效果影响因素与实证研究[J]. 图书情报工作,2020,64( 22) : 126 - 134.

        3、代码中的一些部分,我是以非常笨的方法解决到,有同学优化了之后请贴在评论区交流学习。

  1. # -*- coding: utf-8 -*-
  2. """
  3. @ Project : pythonProject
  4. @ File : spider bilibi.py
  5. @ IDE : PyCharm
  6. @ Auther : Avi-OvO-CreapDiem
  7. @ Date : 2023/9/2 08:49
  8. @ Purpose :
  9. """
  10. import re
  11. import os
  12. import csv
  13. import time
  14. import math
  15. import json
  16. import requests
  17. import numpy as np
  18. import pandas as pd
  19. from datetime import datetime
  20. from bs4 import BeautifulSoup
  21. from selenium import webdriver
  22. from selenium.webdriver.common.by import By
  23. from selenium.webdriver.chrome.options import Options
  24. def merge_csv(input_filename, output_filename):
  25. """
  26. 读取csv文件内容,并写入新的文件
  27. :param input_filename: 传入的文件名称
  28. :param output_filename: 写入的新文件的名称
  29. :return: 向新文件中写入input_filename中的内容
  30. """
  31. # 读取文件
  32. csv_data_read = pd.read_csv(input_filename)
  33. # 获取文件总行数
  34. number_of_row = (len(csv_data_read))
  35. # 循环该csv文件中的所有行,并写入信息
  36. for i in range(0, number_of_row):
  37. row_info = csv_data_read.values[i]
  38. # 输出查看内容
  39. # print(row_info)
  40. # 具体内容
  41. row_content = row_info[0]
  42. # 写入
  43. write_to_csv_bvid(output_filename, row_content)
  44. # 退出循环
  45. # 打印进度
  46. print(f'成功向{output_filename}中写入了{input_filename}的全部信息')
  47. def write_to_csv_bvid(input_filename, bvid):
  48. """
  49. 写入新的csv文件,若没有则创建,须根据不同程序进行修改
  50. :param input_filename: 写入的文件名称
  51. :param bvid: BV号
  52. :return: 生成写入的input_filename文件
  53. """
  54. # OS 判断路径是否存在
  55. file_exists = os.path.isfile(input_filename)
  56. # 设置最大尝试次数
  57. max_retries = 50
  58. retries = 0
  59. while retries < max_retries:
  60. try:
  61. with open(input_filename, mode='a', encoding='utf-8', newline='') as csvfile:
  62. fieldnames = ['BV号']
  63. writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
  64. if not file_exists:
  65. writer.writeheader()
  66. writer.writerow({
  67. 'BV号': bvid
  68. })
  69. # print('写入文件成功')
  70. break # 如果成功写入,跳出循环
  71. except PermissionError as e:
  72. retries += 1
  73. print(f"将爬取到的数据写入csv时,遇到权限错误Permission denied,文件可能被占用或无写入权限: {e}")
  74. print(f"等待3s后重试,将会重试50次... (尝试 {retries}/{max_retries})")
  75. time.sleep(3) # 等待10秒后重试
  76. else:
  77. print("将爬取到的数据写入csv时遇到权限错误,且已达到最大重试次数50次,退出程序")
  78. def spider_bvid(keyword):
  79. """
  80. 利用seleniume获取搜索结果的bvid,供给后续程序使用
  81. :param keyword: 搜索关键词
  82. :return: 生成去重的output_filename = f'{keyword}BV号.csv'
  83. """
  84. # 保存的文件名
  85. input_filename = f'{keyword}BV号.csv'
  86. # 启动爬虫
  87. options = Options()
  88. options.add_argument('--headless')
  89. options.add_argument('--disable-gpu')
  90. browser = webdriver.Chrome(options=options) # 设置无界面爬虫
  91. browser.set_window_size(1400, 900) # 设置全屏,注意把窗口设置太小的话可能导致有些button无法点击
  92. browser.get('https://bilibili.com')
  93. # 刷新一下,防止搜索button被登录弹框遮住
  94. browser.refresh()
  95. print("============成功进入B站首页!!!===========")
  96. input = browser.find_element(By.CLASS_NAME, 'nav-search-input')
  97. button = browser.find_element(By.CLASS_NAME, 'nav-search-btn')
  98. # 输入关键词并点击搜索
  99. input.send_keys(keyword)
  100. button.click()
  101. print(f'==========成功搜索{keyword}相关内容==========')
  102. # 设置窗口
  103. all_h = browser.window_handles
  104. browser.switch_to.window(all_h[1])
  105. """
  106. # 这里可以通过xpath或者其他方法找到B站搜索结果页最下方的页码数值
  107. # 但B站网页代码更改后,显示为34页,网页内容检查后显示为42页(至多)
  108. # 由于我们的搜索结果很多,肯定超出B站最大显示的42页,故而直接设置最大页数为42
  109. # 找到最后一个页码所在位置,并获取值
  110. # total_btn = browser.find_element(By.XPATH,"//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div/div[4]/div/div/button[9]"")
  111. # //*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div/div[4]/div/div/button[9]
  112. # total = int(total_btn)
  113. # print(f'==========成功搜索! 总页数: {total}==========')
  114. """
  115. # B站最多显示42页
  116. total_page = 42
  117. # 同样由于B站网页代码的更改,通过找到并点击下一页的方式个人暂不能实现(对,不会分析那个破网页!!!)
  118. # 因此这里利用总页数进行循环访问来实现自动翻页的效果
  119. for i in range(0, total_page):
  120. # url 需要根据不同关键词进行调整内容!!!
  121. url = (f"https://search.bilibili.com/all?keyword={keyword}"
  122. f"&from_source=webtop_search&spm_id_from=333.1007&search_source=5&page={i}")
  123. print(f"===========正在尝试获取第{i + 1}页网页内容===========")
  124. print(f"===========本次的url为:{url}===========")
  125. browser.get(url)
  126. # 这里请求访问网页的时间也比较久(可能因为我是macos),所以是否需要等待因设备而异
  127. # 取消刷新并长时间休眠爬虫以避免爬取太快导致爬虫抓取到js动态加载源码
  128. # browser.refresh()
  129. print('正在等待页面加载:3')
  130. time.sleep(1)
  131. print('正在等待页面加载:2')
  132. time.sleep(1)
  133. print('正在等待页面加载:1')
  134. time.sleep(1)
  135. # 直接分析网页
  136. html = browser.page_source
  137. # print("网页源码" + html) 用于判断是否获取成功
  138. soup = BeautifulSoup(html, 'lxml')
  139. infos = soup.find_all(class_='bili-video-card')
  140. bv_id_list = []
  141. for info in infos:
  142. # 只定位视频链接
  143. href = info.find('a').get('href')
  144. # 拆分
  145. split_url_data = href.split('/')
  146. # 利用循环删除拆分出现的空白
  147. for element in split_url_data:
  148. if element == '':
  149. split_url_data.remove(element)
  150. # 打印检验内容
  151. # print(split_url_data)
  152. # 获取bvid
  153. bvid = split_url_data[2]
  154. # 利用if语句直接去重
  155. if bvid not in bv_id_list:
  156. bv_id_list.append(bvid)
  157. for bvid_index in range(0, len(bv_id_list)):
  158. # 写入 input_filename
  159. write_to_csv_bvid(input_filename, bv_id_list[bvid_index])
  160. # 输出提示进度
  161. print('写入文件成功')
  162. print("===========成功获取第" + str(i + 1) + "次===========")
  163. time.sleep(1)
  164. i += 1
  165. # 退出爬虫
  166. browser.quit()
  167. # 打印信息显示是否成功
  168. print(f'==========爬取完成。退出爬虫==========')
  169. def write_to_csv(filename, bvid, aid, cid, mid, name, follower, archive, title, tname, pub_date, pub_time, desc,
  170. view, like, coin, favorite, share, reply, danmaku, communication_index):
  171. """
  172. 向csv文件中写入B站视频相关的基本信息,未按路径找到文件,则新建文件
  173. :param filename: 写入数据的文件名
  174. :param bvid: BV号
  175. :param aid: AV号
  176. :param cid: 用于获取弹幕文本的
  177. :param mid: UP主的ID
  178. :param name: UP主名称
  179. :param follower: UP主粉丝数
  180. :param archive: UP主作品总数
  181. :param title: 标题
  182. :param tname: tag名称
  183. :param pub_date: 发布日期
  184. :param pub_time: 发布时间
  185. :param desc: 视频简介
  186. :param view: 播放量
  187. :param like: 点赞数
  188. :param coin: 投币数
  189. :param favorite: 收藏数
  190. :param share: 分享数
  191. :param reply: 评论数
  192. :param danmaku: 弹幕数
  193. :param communication_index: 传播效果公式的值
  194. :return:
  195. """
  196. file_exists = os.path.isfile(filename)
  197. max_retries = 50
  198. retries = 0
  199. while retries < max_retries:
  200. try:
  201. with open(filename, mode='a', encoding='utf-8', newline='') as csvfile:
  202. fieldnames = ['BV号', 'AV号', 'CID', 'UP主ID', 'UP主名称', 'UP主粉丝数', '作品总数', '视频标题',
  203. '视频分类标签',
  204. '发布日期', '发布时间', '视频简介', '播放量', '点赞数', '投币数', '收藏数', '分享数',
  205. '评论数',
  206. '弹幕数', '传播效果指数']
  207. writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
  208. if not file_exists:
  209. writer.writeheader()
  210. writer.writerow({
  211. 'BV号': bvid, 'AV号': aid, 'CID': cid, 'UP主ID': mid, 'UP主名称': name, 'UP主粉丝数': follower,
  212. '作品总数': archive, '视频标题': title, '视频分类标签': tname, '发布日期': pub_date,
  213. '发布时间': pub_time,
  214. '视频简介': desc, '播放量': view, '点赞数': like, '投币数': coin, '收藏数': favorite,
  215. '分享数': share,
  216. '评论数': reply, '弹幕数': danmaku, '传播效果指数': communication_index
  217. })
  218. break # 如果成功写入,跳出循环
  219. except PermissionError as e:
  220. retries += 1
  221. print(f"将爬取到的数据写入csv时,遇到权限错误Permission denied,文件可能被占用或无写入权限: {e}")
  222. print(f"等待3s后重试,将会重试50次... (尝试 {retries}/{max_retries})")
  223. else:
  224. print("将爬取到的数据写入csv时遇到权限错误,且已达到最大重试次数50次,退出程序")
  225. def get_user_info(uid):
  226. """
  227. 通过uid(即mid)获取UP主的粉丝总数和作品总数
  228. :param uid: mid
  229. :return:user_info_dict
  230. """
  231. # 定义空字典用于存放数据
  232. # 粉丝数 follower
  233. # 作品总数 archive
  234. user_info_dict = {}
  235. # 首先写入请求头
  236. # 设置用户代理 User_Agent及Cookies
  237. headers = {
  238. 'User-Agent': "",
  239. 'Cookie': ""}
  240. # 将传入的的uid组成up主主页的api_url
  241. # A Example: https://api.bilibili.com/x/web-interface/card?mid=1177893348
  242. api_url = f'https://api.bilibili.com/x/web-interface/card?mid={uid}'
  243. # https://api.bilibili.com/x/web-interface/view?BV1n24y1D75V
  244. # 打印次数,数据量大,便于查看进程
  245. print(f"正在进行爬取uid为:{uid}的UP主的粉丝数量与作品总数")
  246. # 打印本次要获取的uid,用于错误时确认
  247. print(f"==========本次获取数据的up主的uid为:{uid}==========")
  248. print(f"url为{api_url}")
  249. # 利用requests进行访问,并返回需要的封装信息
  250. up_info = requests.get(url=api_url, headers=headers)
  251. # 不知道会不会被封ip,保险起见
  252. # time.sleep(2)
  253. # 将数据转化为json格式
  254. up_info_json = json.loads(up_info.text)
  255. # 利用json定位相关数据
  256. fans_number = up_info_json['data']['card']['fans']
  257. user_info_dict['follower'] = fans_number
  258. archive_count = up_info_json['data']['archive_count']
  259. user_info_dict['archive'] = archive_count
  260. print(f'=========={bv_id} 的作者基本信息已成功获取==========\n')
  261. # 等待
  262. print('正在等待,以防访问过于频繁\n')
  263. time.sleep(1.5)
  264. return user_info_dict
  265. def get_video_info(bv_id):
  266. headers = {
  267. 'User-Agent': "",
  268. 'Cookie': ""}
  269. api_url = f'https://api.bilibili.com/x/web-interface/view?bvid={bv_id}'
  270. # 打印本次要获取的bvid,用于错误时确认
  271. print(f"正在进行爬取uid为:{bv_id}的UP主的粉丝数量与作品总数")
  272. print(f"==========本次获取数据的视频BV号为:{bv_id}==========")
  273. print(f"url为:{api_url}")
  274. # https://api.bilibili.com/x/web-interface/view?BV1n24y1D75V
  275. video_info = requests.get(url=api_url, headers=headers)
  276. video_info_json = json.loads(video_info.text)
  277. # 创建存放的字典
  278. info_dict = {}
  279. # 信息解读
  280. # https://zhuanlan.zhihu.com/p/618885790
  281. # 视频bvid,即bv号
  282. bvid = video_info_json['data']['bvid']
  283. info_dict['bvid'] = bvid
  284. # 视频aid,即av号
  285. aid = video_info_json['data']['aid']
  286. info_dict['aid'] = aid
  287. # 视频cid,用于获取弹幕信息
  288. cid = video_info_json['data']['cid']
  289. info_dict['cid'] = cid
  290. # 作者id
  291. mid = video_info_json['data']['owner']['mid']
  292. info_dict['mid'] = mid
  293. # up主昵称
  294. name = video_info_json['data']['owner']['name']
  295. info_dict['name'] = name
  296. # 视频标题
  297. title = video_info_json['data']['title']
  298. info_dict['title'] = title
  299. # 视频标签
  300. tname = video_info_json['data']['tname']
  301. info_dict['tname'] = tname
  302. # 视频发布时间戳
  303. pubdate = video_info_json['data']['pubdate']
  304. # 转化时间戳
  305. pub_datatime = datetime.fromtimestamp(pubdate)
  306. # 整体格式
  307. pub_datatime_strf = pub_datatime.strftime('%Y-%m-%d %H:%M:%S')
  308. # 日期
  309. date = re.search(r"(\d{4}-\d{1,2}-\d{1,2})", pub_datatime_strf)
  310. info_dict['pub_date'] = date.group()
  311. # 时间
  312. pub_time = re.search(r"(\d{1,2}:\d{1,2}:\d{1,2})", pub_datatime_strf)
  313. info_dict['pub_time'] = pub_time.group()
  314. # 视频创建时间戳
  315. # ctime = info['ctime']
  316. # 视频简介
  317. desc = video_info_json['data']['desc']
  318. info_dict['desc'] = desc
  319. # 视频播放量
  320. view = video_info_json['data']['stat']['view']
  321. info_dict['view'] = view
  322. # 点赞数
  323. like = video_info_json['data']['stat']['like']
  324. info_dict['like'] = like
  325. # 投币数
  326. coin = video_info_json['data']['stat']['coin']
  327. info_dict['coin'] = coin
  328. # 收藏数
  329. favorite = video_info_json['data']['stat']['favorite']
  330. info_dict['favorite'] = favorite
  331. # 分享数
  332. share = video_info_json['data']['stat']['share']
  333. info_dict['share'] = share
  334. # 评论数
  335. repiy = video_info_json['data']['stat']['reply']
  336. info_dict['reply'] = repiy
  337. # 视频弹幕数量
  338. danmaku = video_info_json['data']['stat']['danmaku']
  339. info_dict['danmaku'] = danmaku
  340. print(f'=========={bv_id} 的视频基本信息已成功获取==========')
  341. # 发布作品时的动态
  342. # dynamic = info['dynamic']
  343. print('正在等待,以防访问过于频繁\n')
  344. time.sleep(1.5)
  345. return info_dict
  346. if __name__ == '__main__':
  347. # 针对不同内容修改搜索关键词!!!!
  348. keywords = ["1", "2"]
  349. for keyword in keywords:
  350. # 自动爬取多个主题时须注意上面的最大页数定位问题
  351. # 爬取后生成去重了的len(keywords)个f'{keyword}BV号.csv'文件
  352. spider_bvid(keyword)
  353. for keyword in keywords:
  354. # 拼接成文件名
  355. csv_to_merge = f'{keyword}BV号.csv'
  356. # 合并后生成未去重的文件
  357. merge_csv(input_filename=csv_to_merge, output_filename='BV号合并.csv')
  358. # 遍历读取bv_id
  359. filename = 'BV号合并.csv'
  360. # 打开文件并去重
  361. open_csv = pd.read_csv(filename)
  362. open_csv.drop_duplicates(subset='BV号')
  363. bv_id_list = np.array(open_csv['BV号'])
  364. """
  365. # 第一次调用,若读取csv进行爬取时,意外中断
  366. # 则更改为读取txt文本,将已爬取第bvid删除,以达到断点续爬的目的
  367. for bvid in bv_id_list:
  368. with open("bv_id_list.txt", 'a') as f:
  369. f.write(bvid+'\n')
  370. with open("bv_id_list.txt", 'r') as f:
  371. bv_id_list = f.readlines()
  372. """
  373. # 循环写入内容
  374. for i in range(0, len(bv_id_list)):
  375. bv_id = bv_id_list[i]
  376. print(f'正在进行第{i+1}次爬取\n')
  377. # 获取视频所有的基本信息
  378. video_info = get_video_info(bv_id)
  379. bvid = video_info['bvid']
  380. aid = video_info['aid']
  381. cid = video_info['cid']
  382. mid = video_info['mid']
  383. name = video_info['name']
  384. title = video_info['title']
  385. tname = video_info['tname']
  386. pub_date = video_info['pub_date']
  387. pub_time = video_info['pub_time']
  388. desc = video_info['desc']
  389. view = video_info['view']
  390. like = video_info['like']
  391. coin = video_info['coin']
  392. favorite = video_info['favorite']
  393. share = video_info['share']
  394. reply = video_info['reply']
  395. danmaku = video_info['danmaku']
  396. # 传播效果计算公式
  397. Communication_Index = math.log(
  398. 0.5 * int(view) + 0.3 * (int(like) + int(coin) + int(favorite)) + 0.2 * (int(reply) + int(danmaku)))
  399. # 获取作者的相关信息
  400. user_info = get_user_info(uid=mid)
  401. follower = user_info['follower']
  402. archive = user_info['archive']
  403. write_to_csv(filename='视频基本信息.csv', bvid=bvid, aid=aid, cid=cid, mid=mid, name=name, follower=follower,
  404. archive=archive, title=title, tname=tname, pub_date=pub_date, pub_time=pub_time, desc=desc,
  405. view=view, like=like, coin=coin, favorite=favorite, share=share, reply=reply, danmaku=danmaku,
  406. communication_index=Communication_Index)
  407. print(f'==========第{i+1}个BV号:{bv_id}的相关数据已写入csv文件中==========')
  408. print('==================================================\n')

标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

在线投稿:投稿 站长QQ:1888636

后台-插件-广告管理-内容页尾部广告(手机)
关注我们

扫一扫关注我们,了解最新精彩内容

搜索
排行榜