网页爬虫抓取百度图片(【知识点】HTML代码分析的基本原理（一）)

优采云发布时间: 2021-11-02 00:03

　　第一节搜索引擎原理

　　1、基本概念

　　来自中文维基百科的解释：（互联网）搜索引擎是指自动从互联网上采集信息，并经过一定的排序，为用户提供查询的系统。

　　英文维基百科的解释：网络搜索引擎提供了一个界面来搜索万维网上的信息。信息可能包括网页、图像和其他类型的文件。（网络搜索引擎提供了一个接口，可以在万维网上搜索信息。这些信息包括网页、图片和其他类型的文档）

　　2、类别

　　根据工作原理的不同，它们可以分为两个基本类别：全文搜索引擎和目录）。

　　分类目录是人工采集整理网站数据形成数据库，如雅虎中国和国内搜狐、新浪、网易目录。此外，互联网上的一些导航网站也可以归入原创分类目录，例如“网站之家”()。

　　全文搜索引擎自动分析网页的超链接，依靠对超链接和HTML代码的分析来获取网页的信息内容，并根据预先设计好的索引进行分析和整理。用户查询规则。

　　两者的区别可以用一句话概括：类别目录是手动创建的网站索引，全文搜索是自动创建的网页索引。（有些人经常将搜索引擎与数据库搜索进行比较，但他们实际上是错误的）。

　　3、全文搜索是如何工作的？

　　全文搜索引擎一般信息采集、索引、搜索三部分，详细信息可以由搜索器、分析器、索引器、搜索器和用户界面等五部分组成

　　（1）Information采集（Webcrawling）：信息采集的工作是由搜索者和分析者共同完成的。搜索引擎使用爬虫，蜘蛛，或者称为robots的自动搜索机器人程序来查找网页上的超链接。

　　进一步解释：“机器人”实际上是一些基于网络的程序。他们请求网站上的 HTML 页面采集 HTML 页面。它遍历指定范围内的整个Web空间，并从一个网页中不断传输。到另一个网页，从一个站点移动到另一个站点，并将网页采集添加到网页数据库中。“机器人”每次遇到一个新的网页，都要搜索里面的所有链接，所以理论上来说，如果为“机器人”建立了一个合适的初始页面集，从这个初始页面集开始，所有的链接都是遍历后，“机器人”将能够采集到整个网络空间中的网页。

　　在一些开源社区中可以找到很多开源爬虫程序。

　　关键点1：核心在于html分析，所以严谨、结构化、可读、无错误的html代码更容易被采集机器人和采集分析。比如某个页面有这样的结尾，在页面上显示不是问题，但是很可能被采集收录拒绝，比如类似../../***.htm 这样的超链接也可能导致蜘蛛无法识别。这也是需要推广网络标准的原因之一。按照网络标准制作的网页更容易被搜索引擎检索和收录。

　　关键点2：搜索机器人有专门的搜索链接库。搜索同一个超链接时，会自动比较新旧网页的内容和大小。如果它们相同，则不会是采集。因此，有人担心修改后的网页是否可以收录，这是多余的。

　　（2）索引：搜索引擎组织信息的过程称为“索引”。搜索引擎不仅需要保存采集到的信息，还要按照一定的规则进行排列。索引可以是一般的大型数据库，如如ORACLE、Sybase等，也可以定义自己的文件格式进行存储。索引是搜索中比较复杂的部分，涉及到网页结构分析、分词、排序等技术，一个好的索引可以大大提高检索速度。

　　关键点一：虽然目前的搜索引擎都支持增量索引，但创建索引仍然需要很长时间。搜索引擎会定期更新索引。因此，即使爬虫来了，直到我们可以在页面上进行搜索之前，都会有一定的时间间隔。

　　关键点2：索引是区分好搜索和坏搜索的重要标志。

　　（3）Searching：用户向搜索引擎发送查询，搜索引擎接受查询并将信息返回给用户。有些系统在返回结果之前会计算和评估网页的相关性，并基于相关度排序，将相关度高的放在首位，相关度低的放在后面；有的系统在用户查询之前已经计算了每个网页的页面排名（PageRank会在后面介绍），返回页面排名查询结果返回时，较大的放在前面，较小的放在后面。

　　关键点一：不同的搜索引擎有不同的排序规则，所以在不同的搜索引擎中搜索相同的关键词时，排序是不同的。

　　第二节百度搜索引擎的工作原理

　　我所知道的百度搜索：由于工作原因，小生有幸一直在使用百度的Bestcom企业搜索引擎（该部门现已下岗，主要是百度的战略开始向谷歌靠拢，不再单独销售搜索引擎，并切换到搜索服务），据百度销售人员介绍，Besttone的搜索核心与Big Search相同，只是版本可能略低，所以我有理由相信搜索的工作方式是相似的。以下是一些简单的介绍和注意事项：

　　1、关于网站搜索的更新频率

　　百度搜索可以设置网站的更新频率和时间。一般网站的更新频率非常快，会设置独立的爬虫进行跟踪。不过百度比较勤快，中小网站一般天天更新。所以，如果你想让你的网站更新更快，最好把你的链接放在一个大分类目录（比如yahoosina网易），或者百度自己的相关网站，有你的网站超链接位于或您的网站位于某个大型网站中，例如大型网站博客。

　　2、关于采集的深度

　　百度搜索可以定义采集的深度，也就是说百度不一定会检索到你网站的所有内容。它可能只会索引你的网站首页的内容，特别是对于小网站Speak。

　　3、采集关于经常不和网站交流

　　百度对网站的连接和断开有特别的判断。如果发现某个网站不可用，尤其是一些中小网站，百度会自动停止向这些网站发送爬虫，所以选择很重要一个好的服务器并保持网站一天 24 小时开放。

　　4、关于更改IP网站

　　百度搜索可以基于域名或IP地址。如果是域名，会自动解析为对应的ip地址。因此，会有两个问题。首先是如果你的网站和其他人使用相同的IP地址，如果别人的网站被百度处罚，你的网站就会受到牵连。二是如果你更改ip地址，百度会发现你的域名与之前的ip地址不对应，会拒绝给你的网站发送爬虫。所以建议不要随意更改ip地址。如果可能，尝试独享ip。保持网站的稳定性很重要。

　　5、关于静态和动态网站采集

　　很多人担心是不是像asp?id=这样的页面很难采集，像html这样的页面容易采集。事实上，情况并没有想象的那么糟糕。目前大部分搜索引擎都支持动态网站的采集和检索，包括需要登录的网站，都可以检索到，所以你不用担心你的自己的动态。网站搜索引擎无法识别它们。百度搜索支持动态。定制。但是，如果可能，请尝试生成静态页面。同时，对于大多数搜索引擎来说，脚本跳转（JS）、框架（frame）、

　　Flash 超链接，动态页面中含有非法字符的页面是无奈之举。

　　6、关于索引的消失

　　如前所述，需要创建搜索索引。通常，良好搜索的索引是文本文件，而不是数据库。因此，删除索引中的记录并不是一件方便的事情。例如，百度需要使用特殊工具手动删除索引记录。据百度员工介绍，百度有一群人负责这件事——受理投诉、删除记录、人工。当然也可以直接删除某个规则下的所有索引，即可以删除某个网站下的所有索引。还有一个机制（未验证），即过期网页和作弊网页（主要是网页标题，关键词和内容不匹配），在索引过程中也会被删除。

　　7、关于重复数据删除

　　百度搜索的去重不如谷歌的理想。主要是区分文章的标题和来源地址。只要不一样，就不会自动去重，所以不用担心采集内容相似，很快就被Google搜索惩罚不一样，人不多同时具有相同的标题收录。

　　另外，不要把搜索引擎想的那么聪明。他们基本上遵循一定的规则和公式。如果你不想被搜索引擎惩罚，就避开这些规则。

　　第三节谷歌搜索排名技术

　　搜索方面，谷歌比百度好，主要原因是谷歌更公平，而百度人为因素很多（这也符合中国国情），谷歌的公平源于其排名技术PageRank。

　　很多人都知道PageRank，也就是网站的质量等级。值越小，网站越好。实际上，PageRank 是根据特殊公式计算得出的。当我们在 Google 上搜索关键词时，页面排名较低的页面的排名会更高。这个公式没有人为干预，所以是公平的。

　　PageRank的最初想法来自纸质档案的管理。我们知道每篇论文最后都有参考文献。如果某个文章被不同的论文多次引用，那么这个文章就可以被认为是一篇文章。优秀的文章。

　　同理，简单的说，PageRank 可以对网页的重要性做出客观的评价。PageRank 不计算直接链接的数量，而是将网页 A 到网页 B 的链接解释为网页 A 到网页 B 的投票。这样，PageRank 将根据收到的投票数来评估页面的重要性B页面。此外，PageRank还会评估每个投票页面的重要性，因为某些页面的投票被认为具有更高的价值，因此它所链接的页面可以获得更高的价值。

　　这里省略了Page Rank的公式，说说影响Page Rank的主要因素

　　1、指向您的网站的超链接数（您的网站被他人引用）。数字越大，您的网站就越重要。通俗的说，是其他网站友情链接，还是你的网站推荐链接；

　　2、超链接对你的网站的重要性，说明质量好的网站有你的网站的超链接，说明你的网站也很出众。

　　3、网页特定因素：包括网页的内容、标题和网址，即关键词和网页的位置。

　　第四季新网站如何处理搜索

　　以下是对以上分析的总结：

　　1、为什么不用搜索引擎收录你的网站，有以下几种可能（不是绝对的，要看各自的情况）

　　（1）没有岛网页链接，收录的网站也没有超链接给你，搜索引擎将无法找到你；

　　（2）网站网页性质和文件类型（如flash、JS跳转、一些动态网页、frame等）搜索引擎无法识别；

　　（3）你的网站所在的服务器已经被搜索引擎惩罚，而不是与收录同IP的内容；

　　（4）最近更改了服务器的IP地址，搜索引擎需要一段时间重新采集；

　　（5）服务器不稳定，频繁宕机，或无法承受爬虫的压力采集；

　　（6）网页代码低劣，搜索无法正确分析页面内容。请至少学习HTML的基本语法。推荐XHTML；

　　（7）网站使用robots（robots.txt）协议拒绝搜索引擎抓取的网页；

　　（8）使用关键词作弊网页，网页关键词与内容严重不匹配，或部分关键词密度过高；

　　（9）含有非法内容的网页；

　　（10）same网站存在大量同名网页，或者网页标题没有实际意义；

　　2、如何正确做新站（仅供参考）

　　（1）与优秀的网站交换链接；

　　（2）广泛登录各种网站的网站目录列表；

　　（3）多去优质论坛发言，发言质量要好，最好不要回复。在发言中留下你的网站地址；

　　（4）申请网站的博客（新浪、网易、CSDN），在博客中推广自己的网站；

　　（5）使用好的建站程序，最好生成静态页面，自动生成关键词；

　　（6）注意每个网页的标题和区域，尽量把匹配的关键词放在这些容易搜索和索引的位置，注意文章的开头@>，并尝试将其放在文章的开头部分，使用了类似abstract的功能（可以学习网易的文章风格）。

　　例如，“基于开源jabber（XMPP）构建内部即时通讯服务的解决方案”；

　　标题部分：基于开源jabber（XMPP）搭建内部即时通讯服务解决方案-肥龙（消耗品）专栏-PROG3.COM

　　关键词部分：安装，">

　　文章说明部分：是知名的即时通讯服务服务器。它是一个免费的开源软件，允许用户建立自己的即时通讯服务器，可以在互联网或局域网中使用。

　　XMPP（Extensible Message Processing Field Protocol）是一种基于可扩展标记语言（XML）的协议，用于即时通讯（IM）和在线现场检测。它正在促进

　　准实时运行时间。该协议最终可能允许 Internet 用户向 Internet 上的任何其他人发送即时消息，即使他们的操作系统和浏览器不同。XMPP 的技术来源于

　　对于 Jabber 来说，它其实是 Jabber 的核心协议，所以 XMPP 有时会被误称为 Jabber 协议。Jabber 是一个基于 XMPP 协议的 IM 应用程序。除了 Jabber，XMPP 还支持许多应用程序。

0

2021-11-02

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(【知识点】HTML代码分析的基本原理（一）)

0 个评论

发起人

AI时代内容工厂

网页爬虫抓取百度图片(【知识点】HTML代码分析的基本原理（一）)

0 个评论

发起人

相关问题