问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
你好,欢迎来到懂视!登录注册
当前位置: 首页 - 正文

python爬虫用什么框架

发布网友 发布时间:2022-03-04 01:21

我来回答

4个回答

热心网友 时间:2022-03-04 02:50

python爬虫框架概述
爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。
PySpider
PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是:
抓取、更新调度多站点的特定的页面
需要对页面进行结构化信息提取
灵活可扩展,稳定可监控
pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫
通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性
通过web化的脚本编写、调试环境。web展现调度状态
抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展
pyspider的架构主要分为 scheler(调度器), fetcher(抓取器), processor(脚本执行):
各个组件间使用消息队列连接,除了scheler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheler 负责整体的调度控制
任务由 scheler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheler),形成闭环。
每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回*制解析动作。
Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
Scrapy主要包括了以下组件:
引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheler): 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader): 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline): 负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares): 位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheler Middewares): 介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
Scrapy运行流程大概如下:
首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response)
然后,爬虫解析Response
若是解析出实体(Item),则交给实体管道进行进一步的处理。
若是解析出的是链接(URL),则把URL交给Scheler等待抓取

热心网友 时间:2022-03-04 04:08

学习使用python爬虫库
Python 爬虫库,requests是python实现的简单易用的HTTP库,requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多,因为是第三方库,所以使用前需要cmd安装

热心网友 时间:2022-03-04 05:43

Python爬虫框架有很多,具体推荐以下几个:
1、Scrapy框架,是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取结构化数据。
2、Crawley框架,是Python开发出来的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。
3、Portia框架,一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。
4、newspaper框架,一个用来提取新闻、文章以及内容分析的Python爬虫框架。
5、Python—goose框架,该框架可以提取文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

热心网友 时间:2022-03-04 07:34

python爬虫框架有scrapy,twisted
声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
刚吃完饭抽烟好吗 诊所备案制后什么人可做负责人 诊所备案信息表的设置人必须是负责人吗 高中文凭自考需要什么条件 高中自考文凭需要什么条件 春季如何养生最好 春季养生要注重这七“养 电量由万kwh换算成mwh怎么换算 电力换算:一亿千瓦小时等于多少mwh? 王者荣耀 王者实名认证多久可以改一次? 装贴了威思改色膜对车漆有影响吗? 刮胡子用电动剃须刀好还是手动的好? 用Python写爬虫,用什么方式、框架比较好? 用python创建简单的网络爬虫应用软件 用手动剃须刀剃胡子大家都用肥皂还是买泡沫?是不是用着差不多?_ 电动剃须刀刮胡子好还是手动剃须刀刮胡子好 电动剃须刀和手动剃须刀哪个刮胡子刮的干净? 关于手动刮胡刀刮胡子问题 怎么刮胡子才最干净 手动剃须刀可以直接刮胡子么? 关于PS钢笔扣图问题,怎么抠不出来 我用photoshop钢笔工具完后,怎么转换成选区 承德有什么特产?如果送礼,送什么好呢? PS钢笔路径抠图变选区怎么弄? ps中在用钢笔抠出选区后(也就是先确定选区),之后要怎样将选区羽化? PS中用钢笔抠图后怎么把抠好的区域移到另一图层? 如何恢复通讯录到新手机 怎样将联系人到新手机 PS钢笔工具抠出图之后怎么复制出来? PS用钢笔工具钩下一图像后,怎样抠到新 建的文件中去? PS钢笔抠图以后,怎么把抠好的图片给取出来? Python爬虫程序要用到哪些知识和技术 iphone12黑屏几秒又恢复怎么回事? 陌陌怎么加好友 如何看自己家的wifi被多少人用? 怎样在手机上看到自己家的wifi有多少人在用。 怎样用陌陌找异地的认识的人 怎么用iphone看自己家的wifi有几个人再用 怎么用iphone看自己家的wifi有几个人再用? 制作ppt时怎么添加文本框 做ppt怎么添加文本框 做ppt如何增加文本框 空调拆装方法 怎么在ppt中添加文本框 空调拆装步骤图解 空调拆装一次多少钱 做PPT时 可以在文本框中再加文本框吗? 求各类空调拆装步骤 ppt怎么添加文本框 做ppt时文本框里怎么填充文字 ppt添加文本框的方法 ppt如何添加新的文本框
  • 焦点

最新推荐

猜你喜欢

热门推荐