php如何抓取网页内容(搜索引擎重组搜索引擎对页面分析完成的正文信息的分析流程)
优采云 发布时间: 2022-02-03 05:00php如何抓取网页内容(搜索引擎重组搜索引擎对页面分析完成的正文信息的分析流程)
在页面收录过程中,搜索引擎已经抓取并存储了网站上的URL。接下来,搜索引擎会分析爬取页面的内容,如图1所示。
图 1:页面分析流程
在这个过程中,我们看到了两个“页面”:
搜索引擎对页面的分析正式从原创页面开始。 1) 提取文本信息这里提取的文本信息不仅包括页面内容,还包括页眉标签信息(Title、Keywords、Description)等。2)分词/分词完成后到提取信息,搜索引擎根据机械分词法和统计分词法将文本信息分成若干个关键词,这些关键词组成关键词列表。
<p>我们在搜索引擎中查找内容时,经常会输入关键词进行搜索。搜索引擎这里的工作就是把内容按照一定的规则划分成词,方便大家以后搜索。 3) 建立关键词索引在上一步中,搜索引擎已经将文本内容分成了几个