excel抓取网页动态数据(如何用Java获取Javascript动态生成的html页面(图))
优采云 发布时间: 2021-09-27 00:17excel抓取网页动态数据(如何用Java获取Javascript动态生成的html页面(图))
首先,明确我的意思是什么动态数据。
术语定义:这里的动态数据是指网页中通过Javascript动态生成的页面内容,即页面内容不收录在网页的源文件中,是页面加载到浏览器后动态生成的.
输入下面的主题。
抓取静态页面非常简单。通过Java获取html源代码,然后分析源代码得到想要的信息。如果想在中国天气网获取杭州的天气,只需要找到对应的html页面()即可。
假设我需要输入城市名称来获取改变城市的天气,而数据源仍然是中国天气。首先要做的是根据城市找到相应的页面。通过简单的分析,发现城市和页面的URL有对应关系,比如杭州对应101210101,所以程序的关键是找到城市和页面的对应关系。
发现这个网站的搜索框有链接到中国大部分城市,可以得到city和_id的对应关系。找到突破口,开始表演。进入主页,查看其源代码,并找到搜索框的位置。
原来数据是通过Javascript动态添加的。使用 Chrome 的检查来查看以下内容。
能做的就是用Chrome把html复制到一个文件中,然后解析这个文件,得到城市和URL的关系。问题是,万一网站的城市和URL的对应关系发生变化,非常被动,需要更改程序。
现在的问题是如何使用Java获取Javascript动态生成的html内容。我不知道人们怎么想。