js抓取网页内容(如何模拟请求和如何解析HTMLHTML系统学习教程)

优采云发布时间: 2021-09-20 08:24

　　虽然这在很久以前是个问题。但是看到很多答案的方式有点太沉重了。这是一种效率更高、资源消耗更少的方法

　　首先，请记住，浏览器环境消耗大量内存和CPU，应尽量避免使用模拟浏览器环境的爬虫代码。请记住，对于一些前端呈现的web页面，尽管我们无法在HTML源代码中看到所需的数据，但它更有可能通过另一个请求获得纯数据（可能以JSON格式存在）。不用模拟浏览器，我们可以节省解析HTML的开销

　　那么，我们就瞄准北方邮递员论坛！打开beimailman论坛首页，发现首页HTML源代码中没有显示文章的内容。然后，它很可能通过JS异步加载到页面。通过浏览器开发工具（通过OS X或win/Linux下的Command+option+I使用Chrome浏览器）F12）加载主页时分析请求时，很容易在以下屏幕截图中找到请求：

　　从截图中选择的请求获得的响应是主页的文章链接。可以在“预览”选项中查看渲染预览：

　　到目前为止，我们已经确定此链接可以获得主页的文章和链接。在headers选项中，有该请求的请求头和请求参数。通过在Python中模拟这个请求，我们可以得到相同的响应。然后，我们可以使用诸如Beauty soup之类的库解析HTML，以获得相应的内容

　　对于如何模拟请求以及如何解析HTML，小编有时间再写一次。记住要关注它，并在将来经常与您分享文章

　　最后，小编是一名python开发工程师。在这里，我已经编写了一套最新的Python系统学习教程，包括基本Python脚本、web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些材料的人可以关注小编，并在背景私信小编：“01”中获得它们

0

2021-09-20

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(如何模拟请求和如何解析HTMLHTML系统学习教程)

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(如何模拟请求和如何解析HTMLHTML系统学习教程)

0 个评论

发起人

相关问题