Python爬虫爬取图片这个报错怎么处理?
发布网友
发布时间:2022-04-23 06:21
我来回答
共2个回答
热心网友
时间:2022-04-18 09:08
你好!你的错误原因在于html页面获取到的img标签src属性中的链接,可能是因为src中的url格式是这样的:
<img src="//hao123.com/xxx/xxx/xxx/"></img>
这样获取到的链接都没有带上协议:http或者https。而导致程序抛出ValueError的错误异常。
因为正常的url格式应该类似这样的:https://www.baidu.com/
即 协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志
参考网页链接
可将代码中第一个for循环中download_links.append修改为:
for pic_tag in soup.find_all('img'):
pic_link = pic_tag.get('src')
download_links.append('http:' + pic_link)
热心网友
时间:2022-04-18 10:26
处理url的时候把http这一节错误处理给删掉了,问题不在这行追问什么意思啊?刚刚开始学不太懂,怎么改?谢谢了!
追答没有代码怎么改
Python爬虫错误合集及解决方案
二进制数据解码错误,需要将获取的bytes数据转为普通字符串,若出现解码错误,确保使用正确的编码格式decode,比如utf-8。如果使用对应的编码格式依然出错,尝试用兼容的编码格式进行解码。使用代理ip无效,在使用代理爬取网站时,未区分http和https协议会导致问题。正确设置应区分代理协议并适用于请求类型,参考...
关于爬虫中的headers问题(破解版)
首先,查看浏览器的headers信息。打开浏览器,按F12键打开开发者调试工具,选择"网络",找到目标页面,查看request headers和response headers部分。这将揭示服务器需要的必要信息。其中,user-agent和host是常用的关键参数。user-agent标识请求者的浏览器类型,爬虫需要伪装成浏览器以避免被识别。获取user-agent...
Python爬虫遇到乱码怎么办
这种问题解决也很简单,只要在代码中设置一下encoding即可。这里建议一种方法,r.encoding=r.apparent_encoding,这个可以自动推测目标网站的编码格式,省的你自己去一个个设置(当然极少数情况下它可能会推测错误出现乱码,到时候你再手动去查看网页编码,手动设置吧)。deffetchURL(url):headers={'accept':...
python3 爬取图片异常的原因?
我们在下载文件时,一会会采取urlretrieve或是requests的get方式,from urllib.request import urlretrieve urlretrieve(self.url, filename="xxx.png")但对于连续下载,各个文件保存是需要时间的,而程序运行永运是快于存储的,我怀疑这是水管里流水速度与缸的大小不合适的原因,那可以试试下面这种方式:r ...
使用Python爬虫下载图片,得到的图片不显示?
你需要检查一下你的结果,看看是否请求成功了。可能服务器返回的并不是一个图片,但是你强制给他写入到图片格式文件中了,所以没办法显示。你可以通过输出response或者使用抓包软件来检查。
Python爬虫采集遇到403问题怎么办?
应该是你触发到网站的反爬虫机制了。解决方法是:1.伪造报文头部user-agent(网上有详细教程不用多说)2.使用可用代理ip,如果你的代理不可用也会访问不了 3.是否需要帐户登录,使用cookielib模块登录帐户操作 4.如果以上方法还是不行,那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等...
python爬虫 如何解决http error 503问题
从表面上看,Python爬虫程序运行中出现503错误是服务器的问题,其实真正的原因在程序,由于Python脚本运行过程中读取的速度太快,明显是自动读取而不是人工查询读取,这时服务器为了节省资源就会给Python脚本反馈回503错误。其实只要把爬取的速度放慢一点就好了。比如读取一条记录或几条记录后适当添加上time....
Python+requests 爬取网站遇到中文乱码怎么办
对于Python+requests爬取网站遇到中文乱码的问题,您可以:1. 设置编码:在使用requests库发送请求时,可以通过设置`response.encoding`来指定网页的编码方式,例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码,避免中文乱码问题。2. 使用自动识别功能:八爪鱼采集器...
python 爬虫,爬不到数据
那数据是动态的,是通过js动态添加上去的,所以获取不到。不仅是通过js动态添加的。而且从服务器获取的数据是加密过的,然后再解密,最后张渲染到页面上。
【原神】各角色Pixiv涩图统计(二) Python爬虫爬取Pixiv上各角色涩图...
最后,爬取完所有内容后,将page加1,继续爬取下一页内容。Pixiv不会返回404错误,而是返回空值。还需注意,返回的内容可能包含重复信息,需要处理。如需自写代码,上述问题都需要考虑。我的代码中已考虑并测试通过。之前提到,Pixiv爬取速度慢,因此我们使用多线程。但多线程容易导致cookie失效,因此采用...