输入关键字 抓取所有网页(如何获取这些信息和获取百度地图POI的POI数据)
优采云 发布时间: 2021-10-13 14:05输入关键字 抓取所有网页(如何获取这些信息和获取百度地图POI的POI数据)
上一篇讲了需要准备尽可能多的搜索关键词,才能获取尽可能多的POI数据。那么这些关键词是怎么来的呢?我使用的方法是通过一些网站来获取这些关键词。这个网站有来自全国各地的POI数据,对各个城市的POI数据进行了分类。我来自这个网站上面已经获取了上海的各个类别关键词比如上海所有的门牌号、高速公路名称、地铁名称等,下面介绍如何获取这些信息
和获取百度POI数据的方法一样,都是通过解析这个网站的url,然后替换里面的参数来获取不同的数据。这个网站的数据被列在不同的类别中。
每个分类对应一个url,可以通过查看网页源码查看
点击对应的URL地址可以查看分类中收录的数据,比如查看上海所有中餐馆的名字
输入url查看所有中餐厅数据
当然,这些数据是以分页形式显示的。您可以通过对 url 稍加修改的分页形式查看数据。数据表明,中餐厅数据中第一页数据有多页,有的数据只有一页。这些餐厅名称可以视为百度。在地图中搜索到的关键词可以通过程序下载这些网页,并借助正则表达式保存每个关键词。如果想让程序自动完成整个操作,首先要获取所有的分类和它们对应的关键词 可以自己下载网页的html代码创建一个网页,然后引入jquery选择href借助jquery强大的选择器的标签属性
以下是我获得的所有类别及其网址
有了这些数据,就可以通过程序完成对关键词的所有采集。以下是程序源码
查看数据库中保存的关键词的数据
select * from SHKW
select count(*) from SHKW
有了这几百万条关键词信息,下一步就可以构建一个获取百度地图POI数据的url了。下一部分会讲解如何获取百度地图POI数据~