使用的Jsoup框架使用爬虫的方法

优采云发布时间: 2021-08-24 03:04

　　使用的Jsoup框架使用爬虫的方法

　　抓取其他网站内容，俗称爬虫，属于*敏*感*词*，希望题主注意比例。

　　我简单说一下我用过的两种方法，但仅用于学习和交流。他们分别使用python和android。您可以将它们理解为服务器后台爬虫和 Android 爬虫。

　　使用python爬虫

　　python的强大在于丰富的生态库。对于爬虫，我建议学习 scapy 库。这个库很好地打包并且易于使用。它不依赖于其他 python 库。包指南和配置参数也很简单。可以使用 help ('scapy') 查看帮助，这里就不详细描述了。如果爬取金额网站data 协议比较复杂，那你就得自己写解析逻辑了。让我们通过两行代码感受scapy库的简单。

　　安卓爬虫

　　这里需要说明一下，Android不是爬虫，而是解析网站代码。这种方法比较麻烦。一旦网站代码结果发生变化，解析逻辑也必须发生变化。 Android 使用 Jsoup 框架来使用爬虫。网站代码是H5，它的代码是逐行解释，逐行运行。我们可以直接查看网站源代码，然后根据代码编写我们自己的解析逻辑来获取需要的数据。 Jsoup比较好用，把网页解析成Dom，然后根据key得到值。一句话Jsoup代码实现Dom解析

　　文档 doc = Jsoup.connect("").get();

　　以上方法仅供学习交流之用。如果我的回答对你有帮助，请点赞支持，谢谢！

0

2021-08-24

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

使用的Jsoup框架使用爬虫的方法

0 个评论

发起人

AI时代内容工厂

使用的Jsoup框架使用爬虫的方法

0 个评论

发起人

相关问题