网页抓取数据百度百科(项目中需要抓取维基百科,百度百科的词条(图))

优采云发布时间: 2022-01-30 20:20

　　最近由于项目中需要爬取维基百科、百度百科、谷歌新闻的数据，做了一些研究。 Wikipedia在开放性方面做得很好，使用了强大的API来支持查询，但是中文API似乎是基于繁体中文的，中文的Wiki信息太少，有些关键词没有对应词条于是目标转向百度百科。百度百科词条很多，一般的关键词基本都有对应的词条。但是百度百科的入口对应的html页面的连接是这样的 /view/0000.html 。 0000 对应于某个条目。如果要根据URL获取，首先需要将关键词转换成对应的数字。通过httpwatch查看，发现url keyWord &pic=1&sug=1&enc=gbk返回的信息中收录关键词对应0000.html格式的数据。关键词需要gb2312编码。提取信息，拼接url，即可成功获取百度百科的html页面。然后处理html页面，输出到自己的页面。由于html页面结构复杂，服务器上的处理效率较低。所以我觉得最好把html代码全部输出到自己的页面，用JQuery处理页面，用IE或者chrome的开发者工具，看看结构，然后用JQuery提取，隐藏，这个是方便多了。 Google New 的思路与百度百科的思路相同。使用webrequest模拟搜索请求，获取html代码，输出到自己的页面，用JQuery处理即可。

0

2022-01-30

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据百度百科(项目中需要抓取维基百科,百度百科的词条(图))

0 个评论

发起人