问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
你好,欢迎来到懂视!登录注册
当前位置: 首页 - 正文

怎么使用python爬取百度网的数据

发布网友 发布时间:2022-04-24 17:30

我来回答

3个回答

懂视网 时间:2022-05-10 10:22

本篇文章给大家带来的内容是关于Python爬取百度翻译(利用json提取数据),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

工具:Python 3.6.5、PyCharm开发工具、Windows 10 操作系统

说明:本例为实现输入中文翻译为英文的小程序,适合Python爬虫的初学者一起学习,感兴趣的可以做英文翻译为中文的功能,如单词查询功能等。推荐使用谷歌浏览器或火狐浏览器检查元素。使用之前需要先安装模块:pip install request pip install json。

数据提取方法:json

1、数据交换格式,看起来像Python类型(列表,字典)的字符串

2、使用json之前需要导入

3、json.loads

  (1)、把json字符串转化为Python类型

  (2)、json.loads(json字符串)

4、json.dumps

  (1)、把Python类型转化为json字符串

  (2)、json.dumps({})

  (3)、json.dumps(ret1,ensure_ascii=False,indent=2)

    ensure_ascii让中文显示成中文

    indent:能够让下一行在上一行的基础上空格

代码:

import requests
import json
url = "https://fanyi.baidu.com/basetrans"
query_str = input("请输入要翻译的中文:")
data = {
 "query":query_str,
 "from":"zh",
 "to":"en"}
headers = {
 "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1",

 "Referer": "https://fanyi.baidu.com/?aldtype=16047&tpltype=sigma"
}
response = requests.post(url,data=data,headers=headers)
html_str = response.content.decode()#json字符串
#json数据交换格式,使用json之前需要导入
#把json字符串转化为Python类型
dict_ret = json.loads(html_str)
#print(dict_ret)
#print(type(dict_ret))
ret = dict_ret["trans"][0]["dst"]
print("翻译结果是:",ret)

运行效果:

热心网友 时间:2022-05-10 07:30

档案系统初期算是告一段落了,利用一点时间继续爬取POI。和领导聊聊,受益匪浅。之前我的想法是爬取一份poi数据,直接能用;而领导听了之后,觉得更好的方式是爬取多个渠道来源的POI数据,然后做一个数据比较融合(最终事情能不能成不好说,但是经过这么一回,细节技术上有所提高,宏观把控整体项目流程能力有所长进,更重要的是通过和能人交流,以更高的眼界更宏观的看待数据、应用以及问题,这就是成长)。 我之前采用的方式,可以满足需求,但是POI数据获取效率差一些(虽然已经很快,但是相比本文这种还是慢一些)、数据现势性不好,高德数据和百度数据虽然是两套,但是仅仅是坐标不同(所以显然还是一套)。所以,我加一种方式来爬取百度poi。
一 调研: 百度API提供了一个叫Place API获取poi的接口,有个城市内检索 实例为

ce/v2/search?query=银行&page_size=10&page_num=0&scope=1®ion=北京&output=json&ak={您的密钥}
它返回的是个json类型数据,一个区域最大返回数为400,每页最大返回数为20。显然一个城市内不管什么类别的poi,不可能只有400个,会遗漏数据,故舍去

还有一个矩形区域检索,实例为
u.com/place/v2/search?query=美食&page_size=10&page_num=0&scope=1&bounds=39.915,116.404,39.975,116.414&output=json&ak={您的密钥}只要区域划分得当,这个可以使用
二 要解决的问题
1 区域划分
网上有人通过递归写代码的方式来划分,这样划分有问题,第一,划分的区域不能完全对应一个城市的市区;第二,算法设计比较麻烦。解决办法,后面详细说。
2 类别问题
百度API的接口必须要指定query的类别,那么如果类别指定不准,或者类别不全,根本无法完成爬取一个城市所有poi的任务。解决办法,说实话,这个问题在我做这件事情的时候,
十分棘手,不过我最终找到了这个网页
/index.php?title=lbscloud/poitags,一切都不是问题了
三 整体流程
1 区域划分,2km*2km的区域基本可以满足需求,获取每个区域的对角坐标(经纬度),逐行写入一个txt文本里
2 爬虫程序编写 读取1中的txt文本,逐行循环;调用百度API接口,爬取json;将爬取的数据存入数据库中; 每个类别跑一次程序
3 爬下的POI数据处理 poi显示,投影坐标转换,与地图叠加

后文将详细介绍流程

热心网友 时间:2022-05-10 09:05

对于技术小白来说,想用pyrton爬虫还是比较困难的,需要长时间的学习。可以借助采集工具快速掌握网页端数据的采集。
声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
vista记忆文件操作发生错误、读取基础表文件winabc.ovl发生错误、读取... 记忆文件操作发生错误是怎么回事? 电脑系统启动时提示“记忆文件操作发生错误”怎么办啊 每次我按下语言栏的时候怎么说我的ERR记忆文件出现错误? 保洁阿姨把消毒剂和水按1:10的比例进行稀释,180ml的消毒液,需要用... 本田雅阁油耗是多少 雅阁油耗多少钱一公里 我的货已经在荥经那个物流单号300233200128 表格中身份证号码格式不对怎么办 真正的青岛是哪里 玫瑰价格多少钱一支,一枝价格在5元~799元左右 滴滴快车的时长费是不是一上车就开始算的 快手上大唱歌搞笑视频可以直播卖东西吗? 苹果手机打电话时听筒声音大怎么办 苹果手机打电话对方听声音时大时小是怎么回事? 快手刘回的是干啥的? 邓紫棋参加快手卖货主播的演唱会,为什么不自己办一场属于自己的演唱会? 梦见坐牢还有四十天释放? 梦见牢狱之人释放是啥意思 多谢王思聪的直言不讳,你知道成龙与景甜的关系吗? 梦见犯人释放出狱 ? 景甜有百度空间吗? 怎么申请大病救助? 梦见自己释放了 景甜的资料 苹果手机打电话声音很大怎么设置? [ 民政局 ] 请问大病救助的条件,怎么申请 梦到被拉去刑场最后被释放 景甜家境究竟如何? 重大疾病救助怎么申请 景甜是怎么出名的啊?不知不觉好像就红了 如何从百度离线地图数据包内提取poi 百度地图poi如何使用自己的数据库? 百度地图poi检索 searchnearby可以返回lbs的自定义数据吗 百度poi数据和谷歌poi数据哪里有最全面的技术解决方案? java poi word 用webCollector爬取网站,在visited方法中把获取的数据导入到word中,需要用到poi包。 百度地图Place API返回poi数据不全怎么解决 JAVA,POI导出EXCEL表,表中所有数据都是从后台直接获取,求指导,越详 ... 线下POI数据采集服务商有哪些? 固态电池是锂电池吗 美国科学家研发高密度能量锂电池,“好的”电池会成为各国的鸡肋吗? 机械表需要固能电池吗 海四达锂电池排名多少 好易固36v锂电电动扳手多少钱一个 好易固电扳手充电器能充15伏锂电池吗? 能代替锂电池的将是什么? 固态电池有哪些? 固态电池有哪些优势? 大众投资的固态电池,靠谱吗?丨C次元 固态电池,提振新能源行业的一味良药 业内专家称固态电池5年内不可能商用,其难点究竟在哪里?
  • 焦点

最新推荐

猜你喜欢

热门推荐