相关文章
Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子
2024-11-03 02:45

根据学习的爬虫视频实战项目,进行的扩展实战

Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子

原实战实现功能:爬取主页电影排行榜片源信息及下载种子

扩展实现功能:破解反爬策略,根据搜索关键字,获取查找出来的片源信息列表以及下载种子

首先获取搜索的请求链接,查看请求参数

多进行几次请求,发现除了参数,其他的参数每次都是固定的,可知即为我们输入的搜索关键字转码而来,这里使用的是编码的方式

搜索请求返回一个数据,我们采用来进行数据提取,获取以及

点击进入详情页,发现详情页的页面地址就等于:

我们再对每个片源的详情页进行访问,用BeautifulSoup提取出对应的下载种子即可

如果直接用库直接对网页进行请求,每次返回都是

这是因为网站有做反爬,具体的解决方法可以参考破解反爬虫策略 /_guard/auto.js(一) 原理

requests 是一个非常流行且强大的 Python 库,用于发送 HTTP 请求。

请求里面的关键参数主要是headers中的user-agent和cookies中的

当请求返回为时,响应数据中会返回一个的cookie,通过对的加密处理,会返回一个的cookie,带着它再一次进行请求,响应数据中就会返回啦

拿到就可以正常进行网络请求啦,所以主要难点就是对中加密方法的处理

主要是对auto.js文件进行反混淆处理,提取出生成的关键代码,具体操作参考破解反爬虫策略 /_guard/auto.js(一) 原理,反混淆处理后的关键代码如下:

拥有一个获取的方法,剩下就是按照上面获取逻辑来处理cookie啦

ExecJS 是一个 Python 库,它允许你直接在 Python 中执行 Javascript 代码

对于查询的关键字,请求前需要对内容进行转码处理,具体如下:

urllib.parse 是 Python 标准库中的一个模块,专门用于处理 URL 的解析、合成、编码和解码操作。

通过和对页面数据进行分析,获取、、

BeautifulSoup 是一个用于解析 HTML 和 XML 文件的 Python 库,通常用于网页抓取(Web Scraping)
re 是 Python 的正则表达式模块,用于在字符串中执行模式匹配操作。

函数处理了页面查询数据,获取了对应的详情页的路径,通过函数获取详情页的数据,得到每个片源的种子数据

获取了数据,当然要进行保存操作啦,这里用文件对爬取的数据进行保存

csv 是 Python 标准库中的一个模块,用于处理 CSV(逗号分隔值)文件。它提供了方便的工具来读取和写入 CSV 格式的数据,非常适合处理结构化数据。

启动程序,爬虫顺利运行,下面是运行效果:

爬取数据也顺利保存进本地csv文件

    以上就是本篇文章【Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子】的全部内容了,欢迎阅览 ! 文章地址:http://changmeillh.xhstdz.com/news/243.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://changmeillh.xhstdz.com/mobile/ , 查看更多   
最新文章
在寻找提升WordPress网站SEO效果的插件时,有哪些免费且高效的选项值得推荐?
Yoast SEO提供全面的SEO工具,包括关键词优化、元标签管理、XML站点地图生成等。功能全面,适合初学者和高级用户。免费版只能优
RPA实战案例解析,一文看懂RPA工作原理
在这个快节奏的时代,我们渴望更多时间追求梦想。面对电脑前堆积的数据录入和商品上架等重复工作,我们感到束缚。然而,RPA机器
做seo为什么要从白帽seo做起
本人十三君跟着师父十二君做seo也有些时间了,从接触seo以来,发现一个有趣的现象:很多做seo的人员,尤其是新人总想着玩黑帽与
企业工信部备案提交教程(电子化备案)
一、教程目的 本教程主要针对首次备案过程中所需基本信息的填写说明。 (非经营性网站:只要是通过第三方支付࿰
伊金霍洛网站排名优化费用是如何计算的?
伊金霍洛网站seo优化百度搜索引擎关键词快速排名推广提升自然流量点击SEO优化师、网站设计师、梦想者您的流量获取专家“创新互联
【R9s(全网通)搜狗手机输入法下载】OPPO R9s 全网通搜狗手机输入法12.1.1免费下载
搜狗输入法,拥有超大中文词库,输入更加精准,智能。搜狗智能旺仔带你用表达,斗图,妙语,输入更加有趣。******特色功能******
57、曾正忠三部曲 《变化球 Breaking Ball》《迟来的决战 The Last Battle》《无胆狗雄 TATAMI》
水平有限,还望轻喷。\\\ ( 'ω' ) //// 相较去年,重心从挑选top10变成了尽量多列举一些作品,所以今年提及的漫画数量比较
微信公众号及服务号文章爬取
使用Python爬取公众号文章主要两种方法:通过爬取第三方公众号聚合网站通过微信公众平台引用文章接口微信传送门已被封杀,现存可
人工智能板块震荡:投资者应关注AI ETF与软件ETF动态
随着科技的不断发展,人工智能(AI)领域的投资持续引发市场的关注。根据最新市场数据,截至今日收盘,中证人工智能主题指数上涨
男科专题:宁波市男科医院排名更新,宁波普仁男科医院怎么样
男科专题:宁波市男科医院排名更新,宁波普仁男科医院怎么样?男科疾病常常困扰着男性的生活与工作,影响着他们的身心健康。因此