使用的Jsoup框架使用爬虫的方法

优采云 发布时间: 2021-08-24 03:04

  使用的Jsoup框架使用爬虫的方法

  抓取其他网站内容,俗称爬虫,属于*敏*感*词*,希望题主注意比例。

  我简单说一下我用过的两种方法,但仅用于学习和交流。他们分别使用python和android。您可以将它们理解为服务器后台爬虫和 Android 爬虫。

  使用python爬虫

  python的强大在于丰富的生态库。对于爬虫,我建议学习 scapy 库。这个库很好地打包并且易于使用。它不依赖于其他 python 库。包指南和配置参数也很简单。可以使用 help ('scapy') 查看帮助,这里就不详细描述了。如果爬取金额网站data 协议比较复杂,那你就得自己写解析逻辑了。让我们通过两行代码感受scapy库的简单。

  

  安卓爬虫

  这里需要说明一下,Android不是爬虫,而是解析网站代码。这种方法比较麻烦。一旦网站代码结果发生变化,解析逻辑也必须发生变化。 Android 使用 Jsoup 框架来使用爬虫。 网站代码是H5,它的代码是逐行解释,逐行运行。我们可以直接查看网站源代码,然后根据代码编写我们自己的解析逻辑来获取需要的数据。 Jsoup比较好用,把网页解析成Dom,然后根据key得到值。一句话Jsoup代码实现Dom解析

  文档 doc = Jsoup.connect("").get();

  

  以上方法仅供学习交流之用。如果我的回答对你有帮助,请点赞支持,谢谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线