htmlunit抓取动态网页(HttpClient抓取网页js生成内容的问题的侠客们。)
优采云 发布时间: 2021-11-30 03:02htmlunit抓取动态网页(HttpClient抓取网页js生成内容的问题的侠客们。)
HttpClient抓取网页js生成内容的问题。曾经的骑士。来看看
非常感谢您来看我的问题。我要去抢京东产品的产品标题。红色部分的title后面是通过js加载的。这是不可用的。有什么办法可以好起来吗?有类似经历的同胞能指点一下吗?
- - - 解决方案 - - - - - - - - - - - - - - - - - - - - - - -------------
需要抓取ajax的内容,这个是js动态加载的httpclient无法获取
然后需要直接模拟ajax请求
我根据你的需要看了一下
需要访问标题的红色部分
添加产品地址是
获取到它的页面后,搜索 skuidkey 并获取它的值
然后访问
字符串 skuidkey = "";
String url = ""+skuidkey+"&callback=";
使用 Get 访问这个 url
它将返回类似 ({"html":"\u76F4\u964D900\u5143\uFF0C\u4EC5\u9650\u4ECA\u592914:00-18:00\u9650\u65F6\u62A2\u8D2D\u4B04Eu4E \u6279\uFF01"})
结果获得了红色部分的标题
当然,您需要将 unicode 编码的文本转换为中文。不知道怎么传到百度。
附:我写的从java版unicode转中文到C++的版本