网页抓取数据百度百科(项目中需要抓取维基百科,百度百科的词条(图))

优采云 发布时间: 2022-01-30 20:20

  网页抓取数据百度百科(项目中需要抓取维基百科,百度百科的词条(图))

  最近由于项目中需要爬取维基百科、百度百科、谷歌新闻的数据,做了一些研究。 Wikipedia在开放性方面做得很好,使用了强大的API来支持查询,但是中文API似乎是基于繁体中文的,中文的Wiki信息太少,有些关键词没有对应词条于是目标转向百度百科。百度百科词条很多,一般的关键词基本都有对应的词条。但是百度百科的入口对应的html页面的连接是这样的 /view/0000.html 。 0000 对应于某个条目。如果要根据URL获取,首先需要将关键词转换成对应的数字。通过httpwatch查看,发现url keyWord &pic=1&sug=1&enc=gbk返回的信息中收录关键词对应0000.html格式的数据。 关键词需要gb2312编码。提取信息,拼接url,即可成功获取百度百科的html页面。然后处理html页面,输出到自己的页面。由于html页面结构复杂,服务器上的处理效率较低。所以我觉得最好把html代码全部输出到自己的页面,用JQuery处理页面,用IE或者chrome的开发者工具,看看结构,然后用JQuery提取,隐藏,这个是方便多了。 Google New 的思路与百度百科的思路相同。使用webrequest模拟搜索请求,获取html代码,输出到自己的页面,用JQuery处理即可。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线