核心方法:零基础用爬虫爬取网页内容(详细步骤+原理)

优采云 发布时间: 2020-12-31 08:10

  核心方法:零基础用爬虫爬取网页内容(详细步骤+原理)

  互联网上有许多使用Python来爬网内容的教程,但是通常您需要编写代码,而没有相应基础的人也有在短时间内入门的门槛。实际上,在大多数情况下,您可以使用Web Scraper(Chrome插件)快速抓取到目标内容。重要的是,无需下载内容,并且基本上没有代码知识。

  开始之前,有必要简要地理解一些问题。

  a。什么是爬虫?

  自动抓取目标网站内容的工具。

  b。采集器有什么用?

  提高数据采集的效率。没有人想让自己的手指重复复制和粘贴操作。机械的东西应该留给工具。快速的采集数据也是分析数据的基础。

  c。爬行的原理是什么?

  要了解这一点,您需要了解为什么人们可以浏览网络。我们通过输入URL,关键字并单击链接将请求发送到目标计算机,然后将目标计算机的代码下载到本地,然后将其解析/呈现到我们看到的页面中。这是上线的过程。

  采集器的作用是模拟此过程,但它比人工操作要快,并且可以自定义搜寻内容,然后将其存储在数据库中以供浏览或下载。搜索引擎可以工作,这是相似的原理。

  但是爬虫只是工具。为了使工具正常工作,他们必须了解您想要什么。这就是我们要做的。毕竟,人脑波无法直接流入计算机。也可以说,采集器的本质是找到模式。

  

  Lauren Mancke在Unsplash上​​拍摄的照片

  以豆瓣电影Top250为例(许多人使用它来进行练习是因为豆瓣的网页是有组织的),以了解Web Scraper的简易性和使用方法。

  1、在Chrome App Store中搜索Web Scraper,然后单击“添加扩展程序”,然后您可以在Chrome插件栏中看到蜘蛛网图标。

  (如果您的日常浏览器不是Chrome浏览器,则强烈建议对其进行更改。Chrome浏览器与其他浏览器的区别就像Google与其他搜索引擎之间的区别一样

  

  2、打开要抓取的网页,例如,douban Top250的URL为/ top250,然后同时按option + command + i进入开发人员模式(如果使用Windows,它是ctrl + shift + i,不同浏览器的默认快捷键可能不同)。此时,您可以在网页上看到一个对话框。不用担心,这只是当前网页的HTML(超文本标记语言),它创建了整个网络世界。 )。

  

  只要按照步骤1添加Web Scraper扩展程序,您就可以在箭头所示的位置看到Web Scraper,单击它,它将成为下图中的爬虫页面。

  

  3、单击创建新站点地图,然后依次创建站点地图以创建采集器。填写站点地图名称只是为了您自己的身份,例如,填写dbtop250(不要写汉字,空格,大写字母)。通常,将要爬网的网页的URL复制并粘贴到起始URL中,但是为了使爬网程序了解我们的意图,最好首先观察网页的布局和URL。例如,top250使用分页模式,而250张电影分10页分发。 25页。

  第一页的网址是/ top250

  第二页的开头是/ top250?start = 25&filter =

  第三页是/ top250?start = 50&filter =

  ...

  只有一个数字略有不同。我们的意图是抓取top250电影数据,因此您不能简单地将/ top250粘贴到起始网址中,而应将其粘贴到/ top250?start = [0-250:25]&filter =

  启动后请注意[]中的内容,这意味着每25个是一个网页,抓取10个网页。

  最后单击“创建站点地图”,即会构建采集器。

  

<p>(也可以通过填写/ top250来爬网URL,但是Web Scraper无法理解我们将对top250的所有页面的数据进行爬网。它将仅对第一页的内容进行爬网。)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线