网页qq抓取什么原理(python什么是爬虫?以及爬虫工作的原理是什么? )

优采云 发布时间: 2021-12-29 14:14

  网页qq抓取什么原理(python什么是爬虫?以及爬虫工作的原理是什么?

)

  今年进了python坑,进坑的原因多半是爬虫的缘故。至于入口爬虫,我们需要大致了解一下爬虫是什么?以及爬虫的工作原理。以便于日后的学习。本博客仅用于交流学习和记录自己的成长过程。如果有不足和需要改进的地方,还望各位小伙伴指出。互相学习!互相交流!

  1、什么是爬虫

  Crawler,即网络爬虫(搜索引擎爬虫),可以理解为在互联网上爬行的蜘蛛。把互联网比作一个大网,爬虫就是在这个网上爬来爬去的蜘蛛,资源是“猎物”,需要什么资源由人来控制。

  使用爬虫爬取一个网页,在这个'web'中发现了一个'road'#指向网页超链接#。然后爬虫可以去另一个“网”爬取数据。这样,整个连接的'大网'#Internet#都在这个蜘蛛的触手可及的范围内,需要几分钟的时间才能获得所需的资源。

  学过前端的同学应该都知道,每一个tag#()#就是一条路,也可以理解,爬虫直接爬取的不是我们需要的网络资源,而是网页的源代码。然后我们手动过滤选择我们需要的资源的url#网络资源Locator/link#,最后下载或者操作我们需要的数据来达到我们的目的。

  理论上只要能抓取到网页上能看到的数据就可以了('因为你看到的网页上的所有数据都是服务器发送到电脑的,但有些数据是加密的,很难解密') . 对于网络上看不到或获取不到的数据,爬虫也是无法获取的,比如一些付费信息(主付费还没到哈哈哈哈)。

  各大搜索引擎都非常强大,国内的百度、好搜、搜狗等。

  以上只是我个人对爬虫的看法。百度百科(搜索引擎爬虫/20256370?fr=aladdin)有更专业权威的解释。有兴趣的朋友可以看看。

  *Crawler其实就是一个模拟浏览器的过程,模拟浏览器发出请求。*

  2、用户浏览网页的过程

  当用户浏览网页时,他们会看到很多内容。比如打开百度,可以看到图片、文字、音乐等,这个过程是怎么实现的?这个过程的实现其实就是用户输入URL后,通过DNS服务器找到目标服务器主机,向服务器发送请求。服务端解析后,根据请求返回给用户浏览器的HTML、CSS、JS等文件(源代码)。, 浏览器接收到数据并进行分析后,用户就可以看到我们常用网页的内容了。

  #Request/Open某个URL的一般流程:

  {本地主机文件-->本地路由-->DNS域名解析服务器(解析域名指向一个网站)-->目标服务器-->请求页面}

  服务器发送给我们(用户)的不是我们看到的,而是html标记的网页代码,浏览器收到后解析源码。下载标签存储在缓存中,并显示在我们看到的网页上。因此,用户看到的网页本质上是由HTML代码组成的,但实际上,爬虫爬取的却是HTML代码文件。我们通过一定的规则对这些HTML代码进行分析和过滤,从而实现我们对网络资源的访问。. #

  3、什么是网址?

  统一资源定位符 (URL)。URL 是互联网上可用资源的位置和访问方式的简明表示,类似于我们简单描述所需图书在图书馆中的位置以及如何获取所需对象的方式。每个互联网资源都可以看作是一个独立的对象,每个独立的对象(网络资源)都会有一个唯一的URL。URL 中收录

的信息指示目标文件的位置以及浏览器应如何处理该文件。

  #URL 的格式一般由三部分组成:

  1),protocol(服务模式):如例子中,”为通用协议,其他如:file://ftp://等;

  2),托管资源的主机的IP地址:(有时包括端口号)可以是直接IP地址:192.168.1.1,它也可以是域名,如示例中所示;

  3),宿主资源的具体地址(目录和文件夹等):如​​'/static/wiki-album/widget/picture/pictureDialog/resource/img/img-bg_86e1dfc.gif'中例子。#

  4、 开发环境配置

  工欲善其事,必先利其器。学习Python,前提是配置好我们的环境。Python是开源的,可以在Python官网('')免费下载。推荐使用 Pychram 作为 Python 开发工具。我之前也是用IDLE写的。我发现Pycharm很麻烦,但在那之后,我无法逃脱万年真香定理的破坏。如何安装和配置 Pychram 可以在 CSND 上找到。有很多博主写的很详细,大部分人都能看懂。实在不懂就买个宝吧哈哈哈哈。

  5、 个人爬虫开发的思考

  1、理论上只要能抓取到网页上能看到的数据就可以了('因为你看到的网页上的所有数据都是服务器发送给电脑的,但是有些数据是加密,需要解密,获取所需文件的URL,成功一半')

  2、 网页上看不到或获取不到的数据,爬虫也无法获取,比如一些付费素材、付费视频等。

  3、分析页面数据的原则是由简到繁,由易到难

  1)、通过网页源码直接获取

  2),分析是否是ajax异步加载

  3)、数据是否加密js

  6、Python版本问题

  现在Python有了Python2.X和Python3.X,而Python2.X和Python3.X并不是简单的升级关系,而是完全不同的两个东西。这两种发展各有优缺点,语法和方法也各不相同。我也打算在以后的开发中写出两者的区别,让两种不同环境下的程序更兼容,更方便修改。毕竟Python2.X在2020年也将停止更新。不过我建议大家在学习初期,可以下载两个版本,以便学习Python开发的思路和方法。此外,Pychram 可以方便地更改项目中开发时使用的 Python 版本,

  第一篇博文就这么愉快的结束了!非常感谢每一位花时间阅读我对爬虫介绍的看法的朋友。对Python感兴趣的同志可以在评论区留下*敏*感*词*。我们可以一起交流学习,走向更广阔的视野。世界!

   *人生苦短,我用Python。*

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线