问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
你好,欢迎来到懂视!登录注册
当前位置: 首页 - 正文

Python爬虫爬取图片这个报错怎么处理?

发布网友 发布时间:2022-04-23 06:21

我来回答

2个回答

热心网友 时间:2022-04-18 09:08

你好!你的错误原因在于html页面获取到的img标签src属性中的链接,可能是因为src中的url格式是这样的:

<img src="//hao123.com/xxx/xxx/xxx/"></img>

这样获取到的链接都没有带上协议:http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的:https://www.baidu.com/

即 协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为:

for pic_tag in soup.find_all('img'):
    pic_link = pic_tag.get('src')
    download_links.append('http:' + pic_link)

热心网友 时间:2022-04-18 10:26

处理url的时候把http这一节错误处理给删掉了,问题不在这行追问什么意思啊?刚刚开始学不太懂,怎么改?谢谢了!

追答没有代码怎么改

Python爬虫错误合集及解决方案

二进制数据解码错误,需要将获取的bytes数据转为普通字符串,若出现解码错误,确保使用正确的编码格式decode,比如utf-8。如果使用对应的编码格式依然出错,尝试用兼容的编码格式进行解码。使用代理ip无效,在使用代理爬取网站时,未区分http和https协议会导致问题。正确设置应区分代理协议并适用于请求类型,参考...

关于爬虫中的headers问题(破解版)

首先,查看浏览器的headers信息。打开浏览器,按F12键打开开发者调试工具,选择"网络",找到目标页面,查看request headers和response headers部分。这将揭示服务器需要的必要信息。其中,user-agent和host是常用的关键参数。user-agent标识请求者的浏览器类型,爬虫需要伪装成浏览器以避免被识别。获取user-agent...

Python爬虫遇到乱码怎么办

这种问题解决也很简单,只要在代码中设置一下encoding即可。这里建议一种方法,r.encoding=r.apparent_encoding,这个可以自动推测目标网站的编码格式,省的你自己去一个个设置(当然极少数情况下它可能会推测错误出现乱码,到时候你再手动去查看网页编码,手动设置吧)。deffetchURL(url):headers={'accept':...

python3 爬取图片异常的原因?

我们在下载文件时,一会会采取urlretrieve或是requests的get方式,from urllib.request import urlretrieve urlretrieve(self.url, filename="xxx.png")但对于连续下载,各个文件保存是需要时间的,而程序运行永运是快于存储的,我怀疑这是水管里流水速度与缸的大小不合适的原因,那可以试试下面这种方式:r ...

使用Python爬虫下载图片,得到的图片不显示?

你需要检查一下你的结果,看看是否请求成功了。可能服务器返回的并不是一个图片,但是你强制给他写入到图片格式文件中了,所以没办法显示。你可以通过输出response或者使用抓包软件来检查。

Python爬虫采集遇到403问题怎么办?

应该是你触发到网站的反爬虫机制了。解决方法是:1.伪造报文头部user-agent(网上有详细教程不用多说)2.使用可用代理ip,如果你的代理不可用也会访问不了 3.是否需要帐户登录,使用cookielib模块登录帐户操作 4.如果以上方法还是不行,那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等...

python爬虫 如何解决http error 503问题

从表面上看,Python爬虫程序运行中出现503错误是服务器的问题,其实真正的原因在程序,由于Python脚本运行过程中读取的速度太快,明显是自动读取而不是人工查询读取,这时服务器为了节省资源就会给Python脚本反馈回503错误。其实只要把爬取的速度放慢一点就好了。比如读取一条记录或几条记录后适当添加上time....

Python+requests 爬取网站遇到中文乱码怎么办

对于Python+requests爬取网站遇到中文乱码的问题,您可以:1. 设置编码:在使用requests库发送请求时,可以通过设置`response.encoding`来指定网页的编码方式,例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码,避免中文乱码问题。2. 使用自动识别功能:八爪鱼采集器...

python 爬虫,爬不到数据

那数据是动态的,是通过js动态添加上去的,所以获取不到。不仅是通过js动态添加的。而且从服务器获取的数据是加密过的,然后再解密,最后张渲染到页面上。

【原神】各角色Pixiv涩图统计(二) Python爬虫爬取Pixiv上各角色涩图...

最后,爬取完所有内容后,将page加1,继续爬取下一页内容。Pixiv不会返回404错误,而是返回空值。还需注意,返回的内容可能包含重复信息,需要处理。如需自写代码,上述问题都需要考虑。我的代码中已考虑并测试通过。之前提到,Pixiv爬取速度慢,因此我们使用多线程。但多线程容易导致cookie失效,因此采用...

声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
空间向量的坐标运算与平面坐标的运算的区别? 想要一个英文名。。。要好听好读的 最好字数少的说 请帮我取一个独特的英文名 推荐一些个性点的英文名!不要太普通的 个人配送液化气怎么售卖 iphone手机上的三国杀,能在安卓手机上充值元宝吗?求高手解答。_百度知 ... 延边大学护理学院师资队伍如何? ...打克重100多克的杯子(透明塑料AS),用什么类型的注塑机(各种指标值... 延边大学护理系怎么样 卖液化气要什么手 艾爵隐形眼镜在使用的过程中需要怎么保养? 艾爵隐形眼镜质量怎么样 苹果手机用什么音乐播放器? 练习写用python写爬虫,可是不知道怎么用循环来让文章一一对应。 艾爵隐形眼镜有哪些注意事项呢? python for循环什么时候停止 艾爵隐形眼镜怎么样啊。。 关于Python爬虫问题? 艾爵隐形眼镜怎么样 Python爬虫数据处理? 艾爵隐形眼镜有什么不同于别的隐形眼镜的地方啊? 艾爵隐形眼镜怎么样? python爬虫中的循环像这样的怎么弄? 手机里的PUK码是什么码? 艾爵隐形眼镜只有年抛的吗? python爬虫中如果遇到这样的循环怎么提取内容,for应该怎么写_百度知 ... python使用for循环,用不同参数访问一个网站,返回结果都是第一次访问时的结果? 艾爵*眼镜年抛的 分不出正反啊 两面都一样的 看不出是不是碗状啊 和海昌那种一下就能看出来的不一样啊 PUK原始密码是多少? 艾爵隐形眼镜按抛弃时间可以分为哪几类? 什么是移动门户? 艾爵隐形眼镜好不好? 网上营业厅和手机营业厅有什么区别 python爬虫怎么写循环爬取多个页面 买了两幅一样度数的*眼镜 一副是艾爵 一副博士伦 不过为什么博士伦戴起来模糊呢? python 写爬虫如何实现for xrange 字典一起使用 对中国移动门户的发展建议 大家都用什么音乐播放器啊??? 请问艾爵的隐形眼镜怎么样?我想网购 哪里比较实惠? Win7系统启动蓝屏,出现0x00000069故障。如何解决? Python小白求助 爬虫 图中的anchor是怎么传到 def __sort_seed方法中的... 中国移动网上营业厅都能干什么? 【急】隐形眼镜怎么区分正反? 如何在scrapy框架下,用python实现爬虫自动跳转页面来抓去网页内容_百度... 中国移动网上营业厅都能干什么呀?? 电脑上次冷关机之后再开机就蓝屏了,错误代码0×00000069,而且无法进入... 全网门户和移动门户是什么关系? 苹果手机用那一个音乐播放器好? 有没有易懂的 Python 多线程爬虫代码 中企动力移动门户为什么叫门户呢?和通常意义上的门户网站有什么区别?
  • 焦点

最新推荐

猜你喜欢

热门推荐