js抓取网页内容(如何模拟请求和如何解析HTMLHTML系统学习教程)

优采云 发布时间: 2021-09-20 08:24

  js抓取网页内容(如何模拟请求和如何解析HTMLHTML系统学习教程)

  虽然这在很久以前是个问题。但是看到很多答案的方式有点太沉重了。这是一种效率更高、资源消耗更少的方法

  

  首先,请记住,浏览器环境消耗大量内存和CPU,应尽量避免使用模拟浏览器环境的爬虫代码。请记住,对于一些前端呈现的web页面,尽管我们无法在HTML源代码中看到所需的数据,但它更有可能通过另一个请求获得纯数据(可能以JSON格式存在)。不用模拟浏览器,我们可以节省解析HTML的开销

  那么,我们就瞄准北方邮递员论坛!打开beimailman论坛首页,发现首页HTML源代码中没有显示文章的内容。然后,它很可能通过JS异步加载到页面。通过浏览器开发工具(通过OS X或win/Linux下的Command+option+I使用Chrome浏览器)F12)加载主页时分析请求时,很容易在以下屏幕截图中找到请求:

  

  从截图中选择的请求获得的响应是主页的文章链接。可以在“预览”选项中查看渲染预览:

  

  到目前为止,我们已经确定此链接可以获得主页的文章和链接。在headers选项中,有该请求的请求头和请求参数。通过在Python中模拟这个请求,我们可以得到相同的响应。然后,我们可以使用诸如Beauty soup之类的库解析HTML,以获得相应的内容

  对于如何模拟请求以及如何解析HTML,小编有时间再写一次。记住要关注它,并在将来经常与您分享文章

  最后,小编是一名python开发工程师。在这里,我已经编写了一套最新的Python系统学习教程,包括基本Python脚本、web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些材料的人可以关注小编,并在背景私信小编:“01”中获得它们

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线