网页抓取数据百度百科(商业智能和搜索引擎的工作原理)

优采云 发布时间: 2022-03-09 20:00

  网页抓取数据百度百科(商业智能和搜索引擎的工作原理)

  商业智能已经在经历三个转变:从数据驱动到业务驱动,从关注技术到关注应用,从关注工具到关注工具产生的性能。搜索引擎本质上是业务驱动和以应用为中心的(实时用户需求响应),所以我认为商业智能和搜索引擎之间有讨论的空间。这或许有助于理解技术的分工与融合,或为两者的完善提供一些参考。

  1、搜索引擎本质上是(商业)智能的体现。

  企业或集团历年积累的数据庞大,但信息过多,难以消化,信息形式不一致,难以统一处理。 “要学会舍弃信息”,人们开始思考:“怎样才能不被信息所淹没,而是及时利用数据资产找到需要的信息,找到有用的知识,辅助自己进行分析和决策来提高信息利用?”商业智能应运而生。

  互联网上的信息量巨大,网络资源迅速增加。怎样才能不被信息淹没,而是利用网络数据及时找到需要的信息呢?搜索引擎应用正在蓬勃发展。

  可以看出,搜索引擎和(商业)智能都在解决同一个问题,都需要自主或交互地执行各种拟人化任务,都与人类的思考、决策、解决问题和学习有关。 ,是拟人思维(智能)的体现。

  2、搜索引擎和商业智能的工作方式相同

  让我们先来看看搜索引擎是如何工作的。搜索引擎有三个主要环节:抓取网页、处理网页、提供检索服务。首先是爬网。端到端搜索引擎有自己的网络爬虫(蜘蛛)。 Spider按照超链接的顺序不断地爬取网页。抓取的网页称为网页快照。接下来,处理网页。搜索引擎抓取网页后,需要进行大量的预处理,才能提供检索服务。其中,最重要的是提取关键词并建立索引文件。其他包括删除重复网页、分析超链接和计算网页的重要性。准备工作完成后,浏览器看到的就是搜索引擎界面,也就是第三个提供检索服务。用户输入关键词进行搜索,搜索引擎从索引库中找到与关键词匹配的网页;为方便用户,除了网页标题和网址外,还会提供网页摘要等信息。

  再看组成:一个搜索引擎的组件一般由四部分组成:搜索器、索引器、爬虫和用户界面。搜索器的功能是在互联网上漫游,发现和采集信息,主要讲蜘蛛;索引器的作用是了解搜索器搜索到的信息,从中提取索引项,用它来表示文档,生成文档库的索引表。 第三个是检索器,其作用是根据用户查询快速检索索引数据库中的文档,评估相关性,对输出结果进行排序,并根据用户查询需求提供合理的反馈;第四个用户界面,用于接受用户查询,显示查询结果,提供个性化查询项。

  这四个组件,搜索器是采集数据,索引器是处理数据,爬虫和用户界面是数据呈现。检索器是数据展示的提取过程,用户界面是用户数据需求的个性化展示。

  采集数据的方式一般有人工输入、机器采集、人工输入与机器采集同步。人工维护的数据搜索引擎类别是人工组织维护的,如雅虎、新浪分类搜索,自建网络数据库的机器爬取,搜索结果直接从自己的数据库中调用,如谷歌、百度等。现在正在合并人工分拣维护和机器抓取。

  在数据获取方面,需求满足第一,效率第二。机器捕获体现了高效率、高稳定性、低成本,但信息的原创能力和编辑能力还不够。人工输入如果质量高原创性能好,成本低,更能反映信息,满足用户需求,效率排第二。比如走大众路线的童童网,就是以私有产权为基础,动员大量学生输入经过学生编辑的、符合学生特点的原创性信息。学生团(通通网的“线”),费用很高。低,但更能满足学生群体的搜索需求。

  我们知道,商业智能(BI)的主要工作原理体现在“数据抽取、数据处理与存储、数据分析与数据呈现”四个环节,是一个完整的端到端的商业智能解决方案。每个环节都有不同的工具或厂家,但整合基本完成,目前数据库环节的厂家已经基本掌握了其他环节的厂家。搜索引擎抓取网页的过程与数据抽取ETL的过程相同,本质是获取数据。处理网页其实就是对获取的数据进行清洗和整理,也就是数据的处理和存储,数据仓库的内容。提供检索服务其实就是数据分析和数据呈现。

  

  可见搜索引擎和商业智能的工作方式相同。基于商业智能的四个环节,各自有很强的理解力,不同的搜索引擎在“抓取网页、处理网页、提供检索服务”三个环节也各有优势。例如,Lycos 搜索引擎专注于提供检索服务。它只从其他搜索引擎租用数据库,并以自定义格式排列搜索结果。

  3、商业智能需要从三个方面向搜索引擎学习

  1)搜索引擎获取结果的方式极其简单,值得借鉴

  商业智能应用学科的泛化使得BI融入日常业务运营,需要极其简单的操作方式和低成本的沟通方式。搜索引擎的易用性可以达到这个目的。从用户的角度来看,搜索引擎提供了一个收录搜索框的页面。在搜索框中输入一个单词并通过浏览器提交给搜索引擎后,搜索引擎会返回一个与用户输入的内容相关的信息列表。操作非常简单。运营BI日益发展,BI将在单位基层和中层得到应用,即流程化BI(或运营BI)将受到重视和推广。这种基于流程的BI的“下利巴形象”将实现“一般员工也需要用BI,能用BI,必须用BI”,从而最大限度地利用BI。可以看出,此时的用户已经包括了非技术/分析业务/经理。商业智能产品提供的查询、定制和分析模式对于非技术/分析专业人员来说仍然过于复杂,无法支持他们快速、低成本地获得所需的结果。目前商业智能在语义层方面已经有了很大的提升,语义层的功能让业务用户对数据的操作更加方便。但在理解自然语言方面,比如让系统正确理解人类以自然语言输入的信息,并正确回答(或响应)输入的信息,搜索引擎相对要好一些。

  2)提高和增强实时理解和分析能力

  商业智能以if-what-how模型为基础,补充what-how模型,实现实时智能。很多商业智能解决方案,尤其是研究的建模应用,一般都是先假设问题,再建模,构建数据和应用系统,针对特定领域使用特定的分析方法,返回特定的结果。 利用搜索引擎技术可以通过“数据+语义+分析方法+结果排列+呈现”的方式实现实时智能,具有数据范围广、分析结果动态的特点。现有的一些商业智能产品可以方便的添加各类数据源,在类似谷歌的搜索框中输入关键词(例如:“Sales income from sales in December”),系统会返回合理组织的结果带图片和文字。 “数据-趋势图”的互动联动也引起了很多用户的兴趣。

  3)增强处理非结构化数据的能力

  非结构化数据对于业务处理越来越重要。支持决策的信息不仅限于来自数据仓库和ODS层的结构化信息,还往往收录大量的非结构化信息,如文档、电子邮件、媒体文件等。搜索引擎具有很强的处理能力非结构化信息,例如图片、视频和音乐。

  4、搜索引擎需要从四个方面学习商业智能

  1)向专家系统学习,提高搜索引擎对用户搜索问题的理解,去除冗余搜索结果。

  目前的搜索引擎检索结果具有更高的准确性,但仍需改进。应从搜索结果中删除过多信息和过多无关信息。出现附加冗余信息的主要原因是搜索引擎不理解用户问题的原意。优化搜索结果的解决方案有很多,比如元搜索引擎、综合搜索引擎,垂直搜索引擎是比较成功的例子,可以实现非www信息搜索,提供FTP等信息检索、多媒体搜索等。解决方案倾向于确定搜索引擎信息采集的范围,提高搜索引擎的针对性。

  这里针对具体复杂的搜索提出,可以借鉴专家系统的问题形式的思想,从而提高搜索引擎对用户搜索问题的理解。

  2)增加智能,从搜索数据/信息到给出解决方案,甚至执行解决方案

  目前的搜索引擎,就像一只魔术手,从杂乱无章的信息中提取出清晰的检索路径,并提供相应的数据或信息。至于信息如何分析判断,如何帮助我们做出决策甚至直接执行,只能靠大脑了。当前的搜索引擎根本无法做到这一点。但是,对于用户来说,搜索并不是目的,他需要得出结论,甚至帮助他去执行。比如我要买MP3,衡量指标是品牌、价格、质量、交货期。我需要把这四项放到搜索引擎中,让电脑执行。一段时间后,搜索引擎给了我四个方案供我选择,或者为我的决定,帮我购买了某款MP3。这就是用户所需要的,而不是发布一堆信息,让用户一一做出判断和分析,耗费过多的精力,这不是我们需要的。

  所以目前搜索引擎的智能水平并不高,只解决了商业智能中的第一级智能:查询/报告。商业智能在应用智能方面分为三个层次。第一层是提供数据参考,帮助用户进行数字化回忆或确认已经发生的事实,称为查询/报告;第二个层次是帮助用户寻找关系,找到原因并进行预测,称为“综合分析”;三是生成实现目标的多条路径,让用户进行选择和选择,这就是所谓的“计划选择”。选项选择的级别实际上需要生成解决问题的措施或解决方案。

  商业智能在综合分析和方案选择方面取得了一些进展,但仍不成熟。搜索引擎和商业智能可以集成和先进。

  3)革新网页重要性评价体系

  如何呈现用户需要的数据或结论,以什么标准衡量,这是搜索引擎和商业智能非常重要的话题。

  现在搜索引擎有两个评价标准,即基于链接评价的搜索引擎和基于公众访问的搜索引擎。 “链接评估系统”认为,一个网页的重要性取决于它被其他网页链接的链接数量,尤其是一些被认定为“重要”的页面的链接数量。这个评价体系和科技引文索引的思路很相似,但是由于互联网是在商业化的环境下发展起来的,一个网站的链接数也和它的商业推广息息相关,所以这种评价体系在一定程度上缺乏客观性(百度百科)。基于可访问性的搜索引擎也有类似的缺陷。目前的做法是弥补,而不是创新,目前还没有找到比上述评价体系更好的替代方案。

  更重要的是,由于任何人都可以在互联网上发布信息,搜索引擎可以帮助你找到信息,但无法验证信息的可靠性,这就导致了搜索引擎数据可靠性的先天缺陷。

  如何判断被抓取网页的重要性,如何判断网页信息的可信度,搜索引擎还有很长的路要走。

  4)借鉴商业智能的应用方法,研究搜索用户的行为和需求

  搜索引擎是网站建设中“方便用户使用网站”的必备功能,也是“研究网站用户行为的有效工具”。搜索引擎采集了大量的用户需求信息,用户每输入一个查询,就代表一个需求。积累和分析“需求数据”具有重要的商业价值。商业智能相关产品可以帮助搜索引擎厂商充分利用“需求数据”,找到更有利的商业模式。

  事实上,业界已经开始了商业智能和搜索引擎的这种融合。

  从 2004 年开始,商业智能与搜索引擎的结合开始受到广泛关注。从2006年开始,此类解决方案普遍出现在各个商业智能厂商中。例如,Business Objects Google Solutions 2006 支持搜索各种数据结构,包括文本文档、电子邮件、台式计算机中的办公文档、水晶报表、BI 平台中的仪表板数据和公司合同文档。 2007年,WebFocus Magnify对结构化数据进行搜索和索引,并在搜索结果中提供了BI报表的搜索和导航工具,通过树形结构展示搜索结果。 SAS SAS BI Google OneBox 企业版解决方案于2006 年与Google OneBox 紧密结合,让用户可以使用原有的搜索方式获得更深层次的搜索结果。 SAS还提供文本挖掘技术,帮助用户从企业文档中发现和提取知识,建立数据关联。最近的 SAP BusinessObjects Explorer 在提高商业智能系统的可用性、减少查询和搜索响应时间、结果排列和组织方面取得了重大突破,具有类似搜索引擎的效果。

  相信随着实践的深入,商业智能和搜索引擎会融合成一个更美好的世界。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线