网页爬虫抓取百度图片(为什么使用爬虫为什么我们需要使用千磨风?(上))

优采云 发布时间: 2022-02-22 15:11

  网页爬虫抓取百度图片(为什么使用爬虫为什么我们需要使用千磨风?(上))

  关键词:爬虫简介

  千辛万苦,千锤百炼,任尔南北风,东风西风。本期文章主要讲第55天:爬虫相关知识介绍,希望对大家有所帮助。

  由先欢

  作为程序员,相信大家对“爬虫”这个词并不陌生。人们经常在周围提到这个词。在不知道的人眼里,他们会认为这项技术非常高端和神秘。别着急,我们的爬虫系列就带你揭开它的神秘面纱,探寻它的真面目。

  什么是爬行动物

  网络爬虫(也称为网络蜘蛛或网络机器人)是一种程序或脚本,它根据一定的规则自动爬取万维网上的信息。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

  通俗地说,我们把互联网比作一个大蜘蛛网,每个站点资源都比作蜘蛛网上的一个节点。爬虫就像一只蜘蛛,按照设计好的路线和规则在这张蜘蛛网上寻找目标节点。,获取资源。

  为什么要使用爬虫

  为什么我们需要使用爬虫?

  你可以想象一个场景:你很崇拜一个微博名人,你对他的微博很着迷,你想把他微博上十年的每一句话都提取出来,做成名人语录。你在这个时候做什么?手动转到 Ctrl+C 和 Ctrl+V?这种方法确实是正确的。数据量少的时候我们可以这样做,但是数据量上千的时候还需要这样做吗?

  再想象一个场景:你想做一个新闻聚合网站,你需要每天定时去几条新闻网站获取最新消息,我们称之为RSS订阅。你定期去每个订阅网站复制新闻吗?恐怕个人很难做到这一点。

  在以上两种场景下,使用爬虫技术可以轻松解决问题。因此,我们可以看到爬虫技术主要可以帮我们做两种事情:一是数据获取需求,主要是针对特定规则下的大量数据的获取;另一个是自动化需求,主要用于类似信息的聚合、搜索等。

  爬行动物的分类

  从爬取对象的角度,爬虫可以分为通用爬虫和专注爬虫。

  通用网络爬虫,也称为Scalable Web Crawler,将爬取对象从一些*敏*感*词*URL扩展到整个Web,主要针对搜索引擎和大型Web服务商采集数据。此类网络爬虫的爬取范围和数量巨大,对爬取速度和存储空间的要求比较高,对爬取页面的顺序要求比较低。比如我们常见的百度和谷歌搜索。我们进入关键词,他们会从全网找到关键词相关的网页,并按照一定的顺序呈现给我们。

  Focused Crawler 是指有选择地抓取与​​预定义主题相关的页面的网络爬虫。与一般的网络爬虫相比,聚焦爬虫只需要爬取特定的网页,爬取的广度会小很多。比如我们需要爬取东方财富网的基金数据,只需要制定规则爬取东方财富网的页面即可。

  通俗的说,万能爬虫类似于蜘蛛,需要寻找特定的食物,但是它不知道蜘蛛网的哪个节点有它,所以只能从一个节点开始,到时候再看这个节点遇到它,如果有食物就拿食物,如果这个节点表示某个节点有食物,那么它会按照指示寻找下一个节点。网络爬虫的重点是蜘蛛知道哪个节点有食物,它只需要规划一条路线到达那个节点就可以得到食物。

  浏览网页的过程

  在用户浏览网页的过程中,我们可能会看到很多漂亮的图片,比如我们会看到几张图片和百度搜索框,类似下图:

  

  这个过程其实就是用户输入URL后,经过DNS服务器,找到服务器主机,向服务器发送请求。服务器解析后,将html、js、css等文件发送到用户的浏览器。浏览器解析后,用户可以看到各种图片。

  因此,用户看到的网页本质上是由 HTML 代码组成的,爬虫爬取这些内容。通过对这些HTML代码进行分析和过滤,实现图片、文字等资源的获取。

  网址的含义

  URL,即Uniform Resource Locator,也就是我们所说的网站,Uniform Resource Locator是对可以从互联网上获取的资源的位置和访问方式的简明表示,是互联网上标准资源的地址. Internet 上的每个文件都有一个唯一的 URL,其中收录指示文件位置以及浏览器应该如何处理它的信息。

  URL的格式由三部分组成:

  由于爬虫的目标是获取资源,而资源存储在某个主机上,所以爬虫在爬取数据时必须有一个目标URL来获取数据。因此,它是爬虫获取数据的基本依据。准确理解它的含义,对于爬虫的学习很有帮助。

  爬虫的过程

  我们下一章主要讨论焦点爬虫。焦点爬虫的工作流程如下:

  

  从这个爬虫的过程中,你应该可以想到学习爬虫需要学习的关键步骤。首先,我们需要像浏览器一样请求一个URL来获取主机的资源,所以正确请求和获取内容的方法是我们研究的重点。我们获取资源后(即请求URL后得到的响应内容),需要解析响应内容,为我们获取有价值的数据。这里的分析方法是学习的重点。我们拿到数据后,接下来需要存储数据,数据的存储方式也很重要。

  因此,我们所学的爬虫技术其实可以概括为三个基本问题:请求、解析和存储。如果掌握了这三个问题的相应解决方案,爬虫技术就掌握了。在学习爬虫的过程中,大家都会关注这三个问题,不会走弯路。

  总结

  本节介绍爬虫的基本概念,以便您对爬虫有一个大致的了解,以便在后续章节中学习。开胃菜吃完了,下一节就要开始饕餮盛宴了,你准备好了吗?

  文中示例代码:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线