使用的Jsoup框架使用爬虫的方法
优采云 发布时间: 2021-08-24 03:04使用的Jsoup框架使用爬虫的方法
抓取其他网站内容,俗称爬虫,属于*敏*感*词*,希望题主注意比例。
我简单说一下我用过的两种方法,但仅用于学习和交流。他们分别使用python和android。您可以将它们理解为服务器后台爬虫和 Android 爬虫。
使用python爬虫
python的强大在于丰富的生态库。对于爬虫,我建议学习 scapy 库。这个库很好地打包并且易于使用。它不依赖于其他 python 库。包指南和配置参数也很简单。可以使用 help ('scapy') 查看帮助,这里就不详细描述了。如果爬取金额网站data 协议比较复杂,那你就得自己写解析逻辑了。让我们通过两行代码感受scapy库的简单。
安卓爬虫
这里需要说明一下,Android不是爬虫,而是解析网站代码。这种方法比较麻烦。一旦网站代码结果发生变化,解析逻辑也必须发生变化。 Android 使用 Jsoup 框架来使用爬虫。 网站代码是H5,它的代码是逐行解释,逐行运行。我们可以直接查看网站源代码,然后根据代码编写我们自己的解析逻辑来获取需要的数据。 Jsoup比较好用,把网页解析成Dom,然后根据key得到值。一句话Jsoup代码实现Dom解析
文档 doc = Jsoup.connect("").get();
以上方法仅供学习交流之用。如果我的回答对你有帮助,请点赞支持,谢谢!