搜索引擎优化毕业论文(信息推荐系统的设计224.1系统体系结构及数据设计)

　　内容

　　总结2

　　摘要 3

　　第一章介绍 5

　　第二章用户行为挖掘6

　　2.1 网页特征表示 6

　　2.2 文本表示 6

　　2.3 自动分词技术 7

　　2.4专有名词的分词8

　　识别2.5关键词和关键词 8

　　2.5.1 降噪算法 9

　　2.5.2Fixed关键词词库算法9

　　2.6 分词分类 10

　　第 3 章用户兴趣模型 11

　　3.1 特征权重 11

　　3.2 特征权重的时间修正：快启动，慢降算法12

　　3.3 页聚类 13

　　3.4 用户兴趣概念知识库 13

　　3.5 生成推荐信息 14

　　3.5.1 获取推荐信息 14

　　3.5.2 搜索结果预处理 15

　　3.5.3 搜索结果排序算法 15

　　3.5.4 搜索结果去重算法 18

　　3.5 Le Chatelier 的用户兴趣变化原理 19

　　3.6 分布式处理 19

　　第4章信息推荐系统的文本分析与设计22

　　4.1 系统结构与数据设计 22

　　4.1.1 分词与分类 22

　　4.1.2 分词权重计算 23

　　4.1.3公共热点推荐24

　　4.1.4 个性化推荐 25

　　第五章实验结果的分析与比较 27

　　5.1 收敛性测试 27

　　5.1.1 系统收敛精度测试 27

　　5.1.2 分词词典的无意分词测试30

　　5.2 专有名词的分词算法 31

　　5.3 兴趣识别算法的测试 33

　　5.3.1 噪声词消除算法 33

　　5.3.2Fixed关键词词库算法34

　　结论 36

　　参考文献 37

　　谢谢 37

　　第一章介绍

　　自1991年CREN诞生以来，互联网以其丰富多彩的内容吸引了众多用户，其信息量呈指数级增长。现在它已成为人们获取信息的重要途径。由于网络信息中收录大量重复、陈旧、分散、杂乱的数据和信息，人们不得不花费大量时间搜索和浏览自己可能感兴趣的信息。搜索引擎是最常用的检索信息的工具。传统的信息检索技术满足了人们的普遍需求，但对于不同用户关注的特定领域的信息却无能为力。

　　人们不再满足于亲自依靠传统的搜索引擎和其他门户网站网站来查找自己感兴趣的信息，而是希望能够自动获取自己需要的信息。即“人找信息”的模式变成了“信息找人”的模式。系统可以分析用户的行为，然后将用户需要的信息发送给他，并不断提供信息。当用户离线时，系统在网络上捕捉他想知道的任何信息，并在用户在线时推送给他。根据用户独特的信息需求，从互联网上搜索相关信息并整合在一起，有针对性地满足各类用户的信息需求。

　　本项目使用人工智能常用的专家系统来分析和识别用户兴趣。首先分析用户的浏览记录。项目只分析用户浏览记录的标题，因为用户根据标题搜索自己感兴趣的内容。本项目将用户浏览记录标题的分词结果与用户兴趣概念知识库进行匹配，找出可能是用户兴趣概念的分词。然后访问搜索引擎，从搜索引擎获取用户兴趣概念的推荐信息。

　　全文分为三个部分。第一部分是用户行为挖掘，涉及自动分词和分词两部分。本项目采用前向最大分词算法，提出了适当名词切分和噪声词消除的改进算法。第二部分构建用户兴趣概念知识库。系统将用户浏览记录的分词结果与兴趣概念知识库进行比对，识别出用户的兴趣词。本章提出了一种VSM权重的时间修正算法，可以更好地适应用户兴趣随时间的变化。第三部分是测试和结论部分。本项目测试主要关注用户兴趣的识别和收敛以及推荐信息的准确性。

　　第二章用户行为挖掘

　　互联网数据挖掘分为三种挖掘；一是数据内容挖掘，二是数据结构挖掘，三是用户行为挖掘。第三类用户行为挖掘也与数据内容挖掘密切相关。但它不仅关注数据的内容，因此独立成为第三类数据挖掘。网页的本质是网页中的文字内容，但是以html标签为载体呈现给用户的。本项目对网页的文字内容进行分析，通过内容中的文字分类分析，记录用户的喜好。例如，如果用户浏览了一个标题为“苹果新CEO库克”的网页，分析这个项目的标题可以得出用户对苹果在IT行业有一定的加权兴趣。当然，如果他总是阅读与“Apple”相关的内容，在这个项目中，可以将“some”一词替换为“very”——即用户对IT行业的Apple非常感兴趣。本项目可以概括为：文本文本分析处理过程就是根据已建立的领域知识库中的知识结构，分析文本文本与某一领域主题的关系。然后根据对该项分类得到的信息从网上搜索信息，对检索到的信息进行打分处理，最后将得分高的信息推荐给用户。用户对 IT 行业的苹果非常感兴趣。本项目可以概括为：文本文本分析处理过程就是根据已建立的领域知识库中的知识结构，分析文本文本与某一领域主题的关系。然后根据对该项分类得到的信息从网上搜索信息，对检索到的信息进行打分处理，最后将得分高的信息推荐给用户。用户对 IT 行业的苹果非常感兴趣。本项目可以概括为：文本文本分析处理过程就是根据已建立的领域知识库中的知识结构，分析文本文本与某一领域主题的关系。然后根据对该项分类得到的信息从网上搜索信息，对检索到的信息进行打分处理，最后将得分高的信息推荐给用户。

　　2.1 网页的特征表示

　　网页的文本信息、文本格式、文档结构、页面布局、链接结构都是网页的代表性特征。普通用户在阅读报纸时，大多是先阅读新闻标题，然后再选择是否阅读新闻的具体内容。同样，用户在使用互联网时，总是先看标题，再决定是否需要阅读具体内容。因此，本项目只需要关心网页的文本信息，即网页的特征表示，而忽略其他方面。为了加快对用户行为进行分类的处理速度，本项目只需要分析网页的标题，不考虑网页的全部内容。

　　2.2 文本表示

　　文字的内容形式非常复杂。本项目需要选择一个语言特征，并以此为基础分析子文本[2]。

　　文本的内容特征

　　用什么作为特征来描述文本内容，是文本表示的核心问题。英语常用词、词串（指出现在文本中的多个固定长度的词）、词组

　　将文本表示为特征。相关研究和实验结果表明，英语中基于词的特征表示最适合于文本分类。由于汉语的特殊性，本项目中经常使用的词组与英语相似。

　　关键词相互关系评价

　　本项目需要评估关键词之间的关系。VectorSpaceModel（VSM）模型是描述分词关系的常用模型。在VSM模型中，一个文档被看作是一个由特征二元组组成的特征向量，其表达式如下（2.1)[5].

　　(2.1)

　　其中，是特征的二元组，是文档中的权重；s 是特征集的大小。在VSM中，这个项目没有考虑特征在文本中的位置和语法信息的作用。

　　一个特征向量对应高维特征空间中的一个点，可以简化为(2.1)为式(2.2)。此时特征向量对应于权向量中。

　　(2.2)

　　在VSM中，文档被描述为向量，借助向量操作可以对文档进行各种操作，如合并、删除、比较文档等。文档之间的相似度可以是向量之间的相似度。测量。

　　2.3 自动分词技术

　　用户浏览一条新闻时，经常会看到新闻标题中收录一个或几个自己感兴趣的分词。为了准确表达用户的兴趣，本项目需要对文本进行分割，将句子拆分为几个准确的词。然后对分词进行分类。为此，本项目引入了自动分词技术。

　　自动分词技术是指将输入计算机的句子自动切割成单词序列的过程。在某些情况下，分词结果中也会收录一些短语和语素。一般来说，构建好的自动分词算法的关键是选择好的分词算法，构建好的分词词典（分词词典）。

　　常用的分词算法方法如下[13]：

　　1、字典匹配法：最大匹配法、逐词遍历法、反向匹配法。

　　2、联想词组法：如联想回溯AB法、联想树分析法、无同义词库法。

　　3、知识与规则方法：如分词规则方法、分词与语义修正方法、规则描述分词方法。

　　4、人工智能方法：如专家系统、神经网络。

　　中文分词的难点在于：

　　1、语法的复杂性。汉字词组的组合非常灵活，很难确定汉字在词组中的位置。例如：“被子”不适合拆分为“被”和“子”两个词；而“菜刀”则适合拆分为“菜”和“刀”两个字。[4]

　　2、分割的歧义。例如“好好学习”这句话，可以分为“好好学习”、“好好学习”（四声）、“好好学习”三种理解方式。

　　这里本项目使用了最大匹配分词算法，也称为贪心算法。分词过程需要去除不需要的词和干扰词。例如：“姚明在瑞士公主陪同下参观瑞士残疾学校”这句话，最大匹配算法的结果是：“姚明”、“访问”、“瑞士”、“残疾”、“学校”、“瑞士”、“公主”、“陪伴”。

　　2.4专有名词的分词

　　专有名词的分词应该是2.第3节内容的一部分，但是2.第3节描述的前向最大分词算法最大的问题是专有名词容易切分不正确。4.3. 第3节的测试部分有一个多余的例子。测试中常见的调用“F”、“-22”，例如“F-22”分词。这种分词的结果是因为词的结构不符合一般语言习惯。大多数专有名词出现在科技领域，都有特定的编号约定。“F”是英文字母。在自然语言中，英文字母后面经常跟英文字母。“-22”没有多大意义，所以根据人类的语言习惯，上面的分词结果是合理的。然而，F-22实际上是一个专有名词，其分词无法通过常规的分词算法进行识别。本项目必须提供专有名词词典来解决专有名词分词问题[7]。

　　适当名词修正的分词算法伪代码如算法2-1。

　　算法 2-1

　　字符串字符串；

　　对于（inti = 0;我

　　{

　　如果（str收录专有名词）

　　{

　　专有名词部分作为一个整体加入到分词结果中；

　　继续常规分词；

　　}

　　这个算法可以解决专有名词的分词问题，但是这个算法不是很完美，也没有完美的结合语言环境进行分词。因此，这个项目必须结合常规的分词算法来规避这个问题。

　　2.5关键词和关键词标识

　　上一节提到的分词算法2.4 可以将一个句子分割成多个词段，对于本项目来说还不够；用户在阅读一条新闻时可能只关注其中的一个或几个。关键词，本项目需要从分词结果中找出用户可能关注的重点。因此，本项目引入了关键词和关键词的识别问题。例如：

　　句子“姚明在瑞士公主的陪同下参观了瑞士残疾学校”，前向最大匹配算法的结果是：“姚明”、“访问”、“瑞士”、“残疾”、“学校”、“瑞士” ”、“公主”、“陪伴”。对于一个NBA球迷来说，他只关心这句话中的“姚明”二字。句子的关键词应该是“姚明”，换成其他作家“孔乙己军”，“孔乙己问瑞士”“瑞士残疾学校公主陪同”这个新闻。体育迷不会感兴趣读到这条新闻，为了能够识别文章中的关键词，本文提出了两种算法来识别文中的关键词，而4.第3节的测试部分有这两种算法的一对。测试和比较了各种算法。

　　2.5.1 降噪算法

　　该算法是发散算法。系统只剔除语义上明显不区分的分词，其余的都认为是有意义的词。然而，系统的噪声词数据库不可能是完美的。因此，一些干扰词总会被系统误认为关键词，此时系统的推荐信息就会出现错误。所以这是一个发散算法。该算法的伪代码实现如算法2-2。

　　算法2-2

　　StringGetKeyWord(stringinstring)

　　{

　　如果（噪声词库收录sinstring）

　　{

　　返回字符串；

　　}

　　别的

　　{

　　返回空；

　　}

　　当然，与第二种算法相比，该算法有其优势。该算法不会错误地缩小用户的实际兴趣范围，并且可以自动收录new关键词。

　　2.5.2Fixed关键词词库算法

　　固定关键词词库算法不代表关键词词库是固定的，固定关键词词库算法是指：关键词词库中只存在分词，可以存储为关键词。该算法的伪代码如算法2-3。

　　算法 2-3

　　StringGetKeyWord(stringinstring)

　　{

　　if(关键词收录词库中的字符串)

　　{

　　返回字符串；

　　}

　　别的

　　{

　　返回空；

　　}

　　与算法2-3相比，算法2-2具有更好的收敛效果，但算法2-3可能会漏掉一些对关键词感兴趣的用户，需要手动维护关键词词库。这个关键词词库的关键词数量大约是一个数量级。

　　2.6 分词分类

　　本项目采用三层分类法对分词进行分类。图 2-1 是一个分类示例。

　　图2-1 三层分类图

　　顶级体育类别下有“NBA”、“CBA”和“世界杯”三个子类别。为保证系统的准确性，本项目采用手动顶层二级分类，并手动添加初始化训练样本进行子节点分类。第三级分类是特定的文本分割。这部分内容在聂荣金的论文中有详细的描述。

　　第三章用户兴趣模型

　　个性化信息推荐研究的关键是建立准确的用户兴趣模型。根据VSM模型，用户的兴趣是一个可以用表达式(2.1)来描述的向量空间。从线性代数的向量空间理论，可以抽象地理解用户的兴趣模型。本项目认为用户的兴趣和是由单个不相交的用户兴趣向量作为基向量组成的向量空间，本章介绍本项目的个性化信息推荐研究，关键是建立准确的用户兴趣模型. 传统用户兴趣模型的构建过程如图3所示。 -1．

　　图3-1 传统用户兴趣模型构建流程

　　图 3-1 所示的用户兴趣模型构建过程并未反映用户兴趣的变化。本文基于计算机网络的拥塞控制算法和路由算法，提出了一种“用户-兴趣-时间”模型，以反映用户的兴趣曲线随时间的变化。并讨论了模型曲线尽可能收敛到用户实际兴趣曲线的几种算法。

　　用户兴趣强度的计算通常有以下三种方式：

　　1、用户自行填写

　　2、基于用户行为分析用户兴趣

　　3、根据用户对推荐信息的反馈进一步更新兴趣强度

　　其中，第一种方法在系统中的直接表现就是用户设置自己感兴趣的领域。这种方法会增加用户的负担，并且不是一种用户友好的方法，因此不是本项目的主要研究方向。第二种和第三种类型是本文的主要关注点。第三种方法有一个增强效果：同时提高了兴趣曲线的收敛速度，增大了收敛曲线的误差。本文的下一部分将讨论第三种方法的增强效果。

　　3.1 个特征权重

　　特征确定后，需要计算特征在向量中的权重来描述特征在文档中的重要性。常用的权重计算方法有布尔权重、权重和熵权重。

　　鉴于布尔权重不能准确描述向量之间权重个数的关系，本项目使用权重来描述向量中特征的权重。

　　基于两个观点：文档中出现的特征越多越重要；文本中出现的特征越多，它就越不重要。（G.Salton,etal.,1975)。一般有两个权重，一个反映第一种观点，第二种观点。

　　权重的计算方法如下（3.1)：

　　(3.1)

　　其中，是特征在文档中出现的频率，是特征出现的文档数量。

　　3.2 特征权重的时间修正：快启动，慢降算法

　　The computer network is a dynamically changing network. The state of each part of the network is dynamically changing. It is very important to detect the change of the network congestion state in time to improve the network utilization. The TCP protocol is to maintain the network as much as possible. Utilization, and has a lower network delay, TCP protocol uses the "additive increase, multiplicative decrease" algorithm congestion control strategy. [JamesF.Kurose, KeithW.Ross.177] Similarly, people's interests and hobbies will change over time. In order to more quickly converge to the user's interest and reflect the changes in the user's interest over time, I use the "start fast, slow down" algorithm to express the relationship between people's interest and time. The description of the "fast start, slow reduction" algorithm is shown in Figure 3-2 Figure 3-2 Fast start, full reduction example diagram

　　本项目介绍了以下一些概念的描述：

　　时间轴：在图3-2中，横坐标为本项目中表示的时间，其含义为：“用户登录两次使用系统，与实际时间不一致。本月第一次登录, 下次重新登录，中间的时间间隔为1"。

　　权重增量：用户浏览一次收录某个分词A，对应的分词A增加权重增量。此项定义为0.125，分词的最大权重为1.，也就是说，如果用户浏览同一个分词8次，分词的权重会增加到最大值1，继续浏览，权重依然保持为1. 之所以权重增量定义为0.125，即最大权重可以增加到最大weight通过浏览八次，因为如果设置为布尔权重，即不是0也不是1。这个项目不能准确衡量一个人的兴趣爱好。如果增重太小，某个分词达到最大权重需要太多次，用户很难快速收敛到他的一个短期兴趣，即收敛太慢。例如，一个对IT不感兴趣的女人A看到乔布斯去世的消息，突然对乔布斯的生平产生了浓厚的兴趣，然后她想在接下来的一周里，由于体重增加，想了解乔布斯的情况。肖女士，她需要浏览100次职位相关网页，系统才会意识到她对职位非常感兴趣，然后主动向用户推送职位相关内容。此时，用户可能已经回到了平静的生活。. 收敛太慢了。例如，一个对IT不感兴趣的女人A看到乔布斯去世的消息，突然对乔布斯的生平产生了浓厚的兴趣，然后她想在接下来的一周里，由于体重增加，想了解乔布斯的情况。肖女士，她需要浏览100次职位相关网页，系统才会意识到她对职位非常感兴趣，然后主动向用户推送职位相关内容。此时，用户可能已经回到了平静的生活。. 收敛太慢了。例如，一个对IT不感兴趣的女人A看到乔布斯去世的消息，突然对乔布斯的生平产生了浓厚的兴趣，然后她想在接下来的一周里，由于体重增加，想了解乔布斯的情况。肖女士，她需要浏览100次职位相关网页，系统才会意识到她对职位非常感兴趣，然后主动向用户推送职位相关内容。此时，用户可能已经回到了平静的生活。. 她需要浏览职位相关网页一百次，系统才会意识到她对职位非常感兴趣，然后主动向用户推送职位相关内容。此时，用户可能已经回到了平静的生活。. 她需要浏览职位相关网页一百次，系统才会意识到她对职位非常感兴趣，然后主动向用户推送职位相关内容。此时，用户可能已经回到了平静的生活。.

　　渐减：这个世界上有什么是一成不变的？不，只有变化是不可变的。人们的兴趣爱好也在不断变化。很少关心乔布斯。乔布斯去世几天后，她突然对这个传奇人物产生了兴趣，于是浏览了很多乔布斯的介绍。此时，系统已经将用户A对“Jobs”的分词权重设置为最大权重。半个月后，她不再关心乔布斯，相应地，她对“乔布斯”的权重也相应地逐渐降低。因此，本项目提出“慢降”，即用户对每个分词的权重应该沿着时间轴递减。本项目将“慢减”的权重定义为0.05，

　　该算法需要较少的编程工作，本项目只需要在数据库服务器上建立定时作业即可。作业的伪代码描述如算法 3-1 所示。

　　算法 3-1

　　而时间是0:0:0

　　updatet_PersonalWordsetkdegree=kdegree-1wherekdegree>1;

　　最后

　　3.3 页聚类

　　本项目试图记录、描述和分析用户行为，用户行为最终由页面内容来描述——即基于内容的页面聚类。页面聚类技术基于以下假设：同一类别的文档之间的相似度较大，不同类别的文档之间的相似度较小。网页聚类根据网页的某种联系或相关性来组织网页。

　　3.4用户兴趣概念知识库

　　人工智能专家系统通常使用手动收录特定领域的知识库和规则库来提供自动化的解决方案。为了提高用户兴趣分割的识别准确率，本项目采用构建用户兴趣概念知识库的方法来识别用户兴趣。用户兴趣概念知识库的本质是一个数据字典。它收录尽可能多的用户兴趣概念细分。

　　用户兴趣概念知识库的逻辑结构也满足图2-1描述的三层分词结构。知识库的所有知识都存储在图 2-1 中的叶节点上。本项目没有使用这种三层林存储结构，而是使用一个存储在数据库中的二维关系表来存储知识库。为了用二维关系型数据库存储图2-1的三层逻辑结构，用户兴趣概念知识库的内容应收录表3-1所示的内容。

　　表3-1 知识库存储内容

　　知识

　　父节点

　　层

　　3.5 生成推荐信息

　　用户使用搜索引擎手动检索自己想知道的内容，通过关键词检索，基于知识库的信息推荐系统使用构建的用户兴趣模型访问搜索引擎生成推荐信息。用户兴趣是以用户兴趣知识库的知识为基向量组成的向量空间。本项目使用用户兴趣向量空间的基向量作为生成推荐信息的基础，即表达式(2.1)中。此时本项目无法确定推荐信息有多重要这个项目生成的是给不同的用户。

　　3.5.1获取推荐信息

　　本项目选择用户最感兴趣的关键词，通过访问搜索引擎检索该关键词的信息，获取推荐信息。这种方法类似于元搜索引擎。这个项目不需要像谷歌那样维护互联网页面的数据库备份。其次，单个搜索引擎的搜索结果召回率并不理想。即使对于谷歌这样的搜索引擎巨头，其数据库中收录的网页备份在互联网上的网页总数中所占的比例也很小。本项目可以访问多个权威搜索引擎，可以获取更多用户感兴趣的关键词信息。之所以称为元搜索引擎，是因为本项目不是即时搜索。当本地服务器长时间访问搜索引擎时，不需要在短时间内将搜索结果返回给用户。这确保了项目有时间对搜索结果进行准确评分。

　　图3-3 服务器搜索引擎交互

　　元搜索引擎的架构：

　　接口代理（InterfaceAgent）

　　这部分管理与各种搜索引擎的交互。某个搜索引擎对应的接口代理需要将用户的查询转换成搜索引擎可以识别的格式（以谷歌新闻搜索为例：）发送出去，负责解析接收到的搜索的搜索结果引擎。搜索结果传递给调度中心。

　　重新排名结果（Re-rankingMechanism）

　　这部分整合了各个搜索引擎的搜索结果，对每个搜索结果进行评分，并根据评分对结果进行重新排序，形成统一的搜索结果列表。

　　结果存储（ResultStorage）

　　这部分将重新排序的搜索结果保存到数据库中，并在用户在线登录时将推荐结果推送给用户。

　　3.5.2 搜索结果预处理

　　通过预处理采集的海量原创网页，也必须形成良好的数据结构，成为用户提供查询服务的核心和关键。搜索结果的预处理主要包括以下几个方面：

　　（1) 和关键词的提取在一个收录大量HTML 标签的网页文件中，按照一定的规则，提取出能够代表网页内容的关键词。即就是，提取后，你得到一个关键词Integrated style (3.2) 的意思。

　　(3.2)

　　使用此术语集来表示 Web 内容。

　　（2)，链接分析人们可以通过分析HTML文档中收录的指向其他文档的链接信息来判断网页与网页内容的关系。

　　（3)，网页重要性的计算。这个封面是指在预处理中判断网页的重要性，不同于后面描述的用户查询得到的网页的重要性。也就是说，它有与用户的查询无关，比如使用谷歌PageRank的核心技术就可以体现出这种重要性。

　　3.5.3搜索结果排序算法

　　传统的元搜索引擎评分排名不涉及其他用户数据，只对搜索结果进行孤立排名。重新排序通常有两种方式：

　　(1)。使用标准评分机制重新评分后，搜索结果将被排序。

　　此方法将为元搜索引擎调用的其他爬虫搜索引擎设置评论。

　　评分转换比例，然后根据评分标准重新排序。但是，这种方法所依赖的各种评分标准不一定可靠。

　　（2)，使用自己的排序算法将搜索结果合并，彻底重新排序。

　　这里的排序算法与传统搜索引擎中的排序算法相同。这种方法一般可以

　　获得更准确的排序结果。但是，这种方法需要下载并分析所有网页，因此

　　响应速度会更慢。

　　推荐结果的评分计算：

　　为方便展示，本项目假设用户为“张三”，本项目搜索为“Jobs”，二级分类为IT。这个项目需要评估张三的页面。pageA 的分数。该项目使用传统的概率统计来计算页面的分数。首先，本项目根据本项目检索到的关键词“乔布斯”的二级分类“IT”获取该类别的所有分词，同时记录分词的权重，然后计算外观网页中每个分词的次数，因此可以使用公式（3.3).

　　(3.3)

　　并非所有推荐结果都符合推荐要求。为了过滤掉那些用户不感兴趣的搜索结果，本项目引入了搜索结果去噪算法。

　　对搜索引擎返回的结果进行评分后，本项目需要对结果进行过滤，去除噪声数据。此项设置了更合理的阈值。当评分结果大于定义的阈值时，为正常数据，否则为噪声数据，需要剔除。

　　搜索结果去噪算法的伪代码如算法3-2。

　　算法 3-2 搜索结果去噪

　　#defineVALUE5

　　如果（分数>5)

　　{

　　结果存储在数据库中；

　　}

　　别的

　　{

　　这时候是噪声数据，去掉；

　　}

　　The definition of the threshold needs to be very careful. When the threshold is defined too large, it will seriously affect the speed of system convergence. Especially for the convergence of users' short-term interests.

　　当阈值设置过大时，虽然系统可以发现用户新的兴趣趋势，但是在用户兴趣的早期，这种兴趣会被认为是噪声并被过滤掉，所以系统不会推荐这个兴趣相关的信息给用户浏览；这使得增加与此兴趣相关的关键词的权重变得困难。如此一来，就会出现推荐信息权重迅速增加的现象，新的爱好很难增加。基于这些考虑，在评估系统的准确性时，需要仔细修改本项目中定义的阈值。

　　本项目以必应搜索“Kobe”为例来描述元搜索引擎的算法。

　　(1), 获取关键字。关键字是系统自动对页面进行分词聚类得到的分词。

　　（2)，调用搜索引擎搜索关键词相关信息。本项目以必应搜索为例

　　图3-4 Bing搜索关键词“Kobe”

　　但搜索结果是正常的HTML代码，如下所示。本项目需要提取HTML中每个搜索结果的超链接。

　　.htm"target="_blank"onmousedown="returnsi_T('&ID=news,5034.2')">科比公开质疑工会关于保罗接替老玉成担任下一任主席的举动？

AI时代内容工厂

搜索引擎优化毕业论文(信息推荐系统的设计224.1系统体系结构及数据设计)

0 个评论

发起人

AI时代内容工厂

搜索引擎优化毕业论文(信息推荐系统的设计224.1系统体系结构及数据设计)

0 个评论

发起人

相关问题