核心方法:零基础用爬虫爬取网页内容（详细步骤+原理）

优采云发布时间: 2020-12-31 08:10

　　互联网上有许多使用Python来爬网内容的教程，但是通常您需要编写代码，而没有相应基础的人也有在短时间内入门的门槛。实际上，在大多数情况下，您可以使用Web Scraper（Chrome插件）快速抓取到目标内容。重要的是，无需下载内容，并且基本上没有代码知识。

　　开始之前，有必要简要地理解一些问题。

　　a。什么是爬虫？

　　自动抓取目标网站内容的工具。

　　b。采集器有什么用？

　　提高数据采集的效率。没有人想让自己的手指重复复制和粘贴操作。机械的东西应该留给工具。快速的采集数据也是分析数据的基础。

　　c。爬行的原理是什么？

　　要了解这一点，您需要了解为什么人们可以浏览网络。我们通过输入URL，关键字并单击链接将请求发送到目标计算机，然后将目标计算机的代码下载到本地，然后将其解析/呈现到我们看到的页面中。这是上线的过程。

　　采集器的作用是模拟此过程，但它比人工操作要快，并且可以自定义搜寻内容，然后将其存储在数据库中以供浏览或下载。搜索引擎可以工作，这是相似的原理。

　　但是爬虫只是工具。为了使工具正常工作，他们必须了解您想要什么。这就是我们要做的。毕竟，人脑波无法直接流入计算机。也可以说，采集器的本质是找到模式。

　　Lauren Mancke在Unsplash上拍摄的照片

　　以豆瓣电影Top250为例（许多人使用它来进行练习是因为豆瓣的网页是有组织的），以了解Web Scraper的简易性和使用方法。

　　1、在Chrome App Store中搜索Web Scraper，然后单击“添加扩展程序”，然后您可以在Chrome插件栏中看到蜘蛛网图标。

　　（如果您的日常浏览器不是Chrome浏览器，则强烈建议对其进行更改。Chrome浏览器与其他浏览器的区别就像Google与其他搜索引擎之间的区别一样

　　2、打开要抓取的网页，例如，douban Top250的URL为/ top250，然后同时按option + command + i进入开发人员模式（如果使用Windows，它是ctrl + shift + i，不同浏览器的默认快捷键可能不同）。此时，您可以在网页上看到一个对话框。不用担心，这只是当前网页的HTML（超文本标记语言），它创建了整个网络世界。）。

　　只要按照步骤1添加Web Scraper扩展程序，您就可以在箭头所示的位置看到Web Scraper，单击它，它将成为下图中的爬虫页面。

　　3、单击创建新站点地图，然后依次创建站点地图以创建采集器。填写站点地图名称只是为了您自己的身份，例如，填写dbtop250（不要写汉字，空格，大写字母）。通常，将要爬网的网页的URL复制并粘贴到起始URL中，但是为了使爬网程序了解我们的意图，最好首先观察网页的布局和URL。例如，top250使用分页模式，而250张电影分10页分发。 25页。

　　第一页的网址是/ top250

　　第二页的开头是/ top250？start = 25＆filter =

　　第三页是/ top250？start = 50＆filter =

　　...

　　只有一个数字略有不同。我们的意图是抓取top250电影数据，因此您不能简单地将/ top250粘贴到起始网址中，而应将其粘贴到/ top250？start = [0-250：25]＆filter =

　　启动后请注意[]中的内容，这意味着每25个是一个网页，抓取10个网页。

　　最后单击“创建站点地图”，即会构建采集器。

<p>（也可以通过填写/ top250来爬网URL，但是Web Scraper无法理解我们将对top250的所有页面的数据进行爬网。它将仅对第一页的内容进行爬网。）

0

2020-12-31

自动采集网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

核心方法:零基础用爬虫爬取网页内容（详细步骤+原理）

0 个评论

发起人

AI时代内容工厂

核心方法:零基础用爬虫爬取网页内容（详细步骤+原理）

0 个评论

发起人

相关问题