抓取jsp网页源代码(jsoup抓取网页代码中的字符转换.URLEncoder利用jsoup)

优采云发布时间: 2022-03-17 03:07

　　挣扎了几天。jsoup爬取网页代码中的字符转换.URLEncoder

　　使用jsoup抓取网页源码中的“m\/\u9b54\u738b\u5976\u7238\/\u7b2c161\u8bdd\/001.jpg”，然后用substring截取“\u9b54\ u738b\u5976\u7238\"，我想以%XX的形式显示，用URLEncoder处理，但是它只处理里面的"\"，转换成"%5Cu9b54%5Cu738b%5Cu5976%5Cu7238 ”。

　　- - - 解决方案 - - - - - - - - - -

　　如果文件名收录这些字符（ / & ? @ # ; $ + = %），这些和所有其他字符都应该被编码，那么为什么不处理呢？

　　- - - 解决方案 - - - - - - - - - -

　　字符“a”-“z”、“A”-“Z”、“0”-“9”、“.”、“-”、“*”、“_”不编码；

　　- - - 解决方案 - - - - - - - - - -

　　使用jsoup爬取网页源码时，可能会使用错误的字符集，原来网站的编码格式是什么？

　　- - - 解决方案 - - - - - - - - - -

　　我之前也用过jsoup爬取项目。我仍然认为当你抓住它时编码可能有问题。会不会是新浪的东西？

0

2022-03-17

抓取jsp网页源代码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取jsp网页源代码(jsoup抓取网页代码中的字符转换.URLEncoder利用jsoup)

0 个评论

发起人

AI时代内容工厂

抓取jsp网页源代码(jsoup抓取网页代码中的字符转换.URLEncoder利用jsoup)

0 个评论

发起人

相关问题