excel抓取网页动态数据(如何用Java获取Javascript动态生成的html页面(图))

优采云 发布时间: 2021-09-27 00:17

  excel抓取网页动态数据(如何用Java获取Javascript动态生成的html页面(图))

  首先,明确我的意思是什么动态数据。

  术语定义:这里的动态数据是指网页中通过Javascript动态生成的页面内容,即页面内容不收录在网页的源文件中,是页面加载到浏览器后动态生成的.

  输入下面的主题。

  抓取静态页面非常简单。通过Java获取html源代码,然后分析源代码得到想要的信息。如果想在中国天气网获取杭州的天气,只需要找到对应的html页面()即可。

  假设我需要输入城市名称来获取改变城市的天气,而数据源仍然是中国天气。首先要做的是根据城市找到相应的页面。通过简单的分析,发现城市和页面的URL有对应关系,比如杭州对应101210101,所以程序的关键是找到城市和页面的对应关系。

  发现这个网站的搜索框有链接到中国大部分城市,可以得到city和_id的对应关系。找到突破口,开始表演。进入主页,查看其源代码,并找到搜索框的位置。

  

  原来数据是通过Javascript动态添加的。使用 Chrome 的检查来查看以下内容。

  

  能做的就是用Chrome把html复制到一个文件中,然后解析这个文件,得到城市和URL的关系。问题是,万一网站的城市和URL的对应关系发生变化,非常被动,需要更改程序。

  现在的问题是如何使用Java获取Javascript动态生成的html内容。我不知道人们怎么想。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线