抓取jsp网页源代码(jsoup抓取网页代码中的字符转换.URLEncoder利用jsoup)

优采云 发布时间: 2022-03-17 03:07

  抓取jsp网页源代码(jsoup抓取网页代码中的字符转换.URLEncoder利用jsoup)

  挣扎了几天。jsoup爬取网页代码中的字符转换.URLEncoder

  使用jsoup抓取网页源码中的“m\/\u9b54\u738b\u5976\u7238\/\u7b2c161\u8bdd\/001.jpg”,然后用substring截取“\u9b54\ u738b\u5976\u7238\",我想以%XX的形式显示,用URLEncoder处理,但是它只处理里面的"\",转换成"%5Cu9b54%5Cu738b%5Cu5976%5Cu7238 ”。

  - - - 解决方案 - - - - - - - - - -

  如果文件名收录这些字符( / & ? @ # ; $ + = %),这些和所有其他字符都应该被编码,那么为什么不处理呢?

  - - - 解决方案 - - - - - - - - - -

  字符“a”-“z”、“A”-“Z”、“0”-“9”、“.”、“-”、“*”、“_”不编码;

  - - - 解决方案 - - - - - - - - - -

  使用jsoup爬取网页源码时,可能会使用错误的字符集,原来网站的编码格式是什么?

  - - - 解决方案 - - - - - - - - - -

  我之前也用过jsoup爬取项目。我仍然认为当你抓住它时编码可能有问题。会不会是新浪的东西?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线