百度网页关键字抓取(什么是百度蜘蛛是怎么实现网页收录的工作过程)
优采云 发布时间: 2022-02-24 06:07百度网页关键字抓取(什么是百度蜘蛛是怎么实现网页收录的工作过程)
搜索引擎的工作过程非常复杂。今天给大家分享一下我所知道的百度蜘蛛实现网页收录。
搜索引擎的工作大致可以分为四个过程。
1、蜘蛛爬行。
2、信息过滤。
3、创建网页索引关键词。
4、用户搜索输出结果。
蜘蛛爬行爬行
当百度蜘蛛来到一个页面时,它会跟随页面上的链接,从这个页面爬到下一个页面,就像一个递归的过程,这不仅是多年的累人工作。例如,当蜘蛛来到我的博客主页时,它会首先读取根目录下的 robots.txt 文件。如果没有禁止搜索引擎抓取,蜘蛛就会开始对网页上的链接进行一一跟踪和抓取。比如我上面的文章“SEO概述|什么是SEO,SEO是做什么的”,引擎会多进程到这个文章所在的页面去爬取信息,等等上,没有尽头。
信息过滤
为了避免重复爬取和爬取网址,搜索引擎会对已爬取和未爬取的地址进行记录。如果你有新的网站,可以去百度官网提交网站的URL,引擎会记录下来,归类为未爬取的URL,然后蜘蛛会使用这张表从数据库中提取 URL,访问并爬取页面。
蜘蛛不会收录所有页面,它是严格检查的。蜘蛛在爬取网页内容时,会进行一定程度的重复内容检测。如果网页所在的 网站 权重较低,并且大部分 文章 是抄袭的,那么蜘蛛很可能不喜欢你的 网站,不要保留爬行,不要收录你的网站。
创建网页的 关键词 索引
当蜘蛛爬取页面时,它首先分析页面的文本内容。通过分词技术,将网页内容简化为关键词,将关键词和对应的URL做成表格进行索引。
该指数有正向指数和反向指数。正向索引是网页内容对应的关键词,反向索引是关键词对应的网页信息。
输出结果
当用户搜索某个关键词时,会通过之前建立的索引表进行关键词匹配,通过反向索引表找到关键词对应的页面,对网页进行综合评分通过引擎计算后,根据网页的得分确定网页的排名。