抓取jsp网页源代码(jsoup抓取网页代码中的字符转换.URLEncoder利用jsoup)
优采云 发布时间: 2022-03-17 03:07抓取jsp网页源代码(jsoup抓取网页代码中的字符转换.URLEncoder利用jsoup)
挣扎了几天。jsoup爬取网页代码中的字符转换.URLEncoder
使用jsoup抓取网页源码中的“m\/\u9b54\u738b\u5976\u7238\/\u7b2c161\u8bdd\/001.jpg”,然后用substring截取“\u9b54\ u738b\u5976\u7238\",我想以%XX的形式显示,用URLEncoder处理,但是它只处理里面的"\",转换成"%5Cu9b54%5Cu738b%5Cu5976%5Cu7238 ”。
- - - 解决方案 - - - - - - - - - -
如果文件名收录这些字符( / & ? @ # ; $ + = %),这些和所有其他字符都应该被编码,那么为什么不处理呢?
- - - 解决方案 - - - - - - - - - -
字符“a”-“z”、“A”-“Z”、“0”-“9”、“.”、“-”、“*”、“_”不编码;
- - - 解决方案 - - - - - - - - - -
使用jsoup爬取网页源码时,可能会使用错误的字符集,原来网站的编码格式是什么?
- - - 解决方案 - - - - - - - - - -
我之前也用过jsoup爬取项目。我仍然认为当你抓住它时编码可能有问题。会不会是新浪的东西?