htmlunit抓取动态网页(HttpClient抓取网页js生成内容的问题的侠客们。)

优采云 发布时间: 2021-11-30 03:02

  htmlunit抓取动态网页(HttpClient抓取网页js生成内容的问题的侠客们。)

  HttpClient抓取网页js生成内容的问题。曾经的骑士。来看看

  非常感谢您来看我的问题。我要去抢京东产品的产品标题。红色部分的title后面是通过js加载的。这是不可用的。有什么办法可以好起来吗?有类似经历的同胞能指点一下吗?

  - - - 解决方案 - - - - - - - - - - - - - - - - - - - - - - -------------

  需要抓取ajax的内容,这个是js动态加载的httpclient无法获取

  然后需要直接模拟ajax请求

  我根据你的需要看了一下

  需要访问标题的红色部分

  添加产品地址是

  获取到它的页面后,搜索 skuidkey 并获取它的值

  然后访问

  字符串 skuidkey = "";

  String url = ""+skuidkey+"&callback=";

  使用 Get 访问这个 url

  它将返回类似 ({"html":"\u76F4\u964D900\u5143\uFF0C\u4EC5\u9650\u4ECA\u592914:00-18:00\u9650\u65F6\u62A2\u8D2D\u4B04Eu4E \u6279\uFF01"})

  结果获得了红色部分的标题

  当然,您需要将 unicode 编码的文本转换为中文。不知道怎么传到百度。

  附:我写的从java版unicode转中文到C++的版本

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线