电子商务:企业国际竞争力市场的重要因素是什么?

优采云 发布时间: 2021-08-08 00:06

  

电子商务:企业国际竞争力市场的重要因素是什么?

  意见搜索引擎排名的实现方法

  技术领域

  [0001] 本发明涉及信息检索和搜索引擎技术领域,是一种实现意见搜索引擎排名的方法。

  背景技术

  [0002] 21世纪是信息技术的时代。各国第三产业比重不断提高,尤其是服务业。信息服务业成为21世纪的主导产业,带动了电子商务的出现和发展电子商务成为各国和各大企业竞争的焦点。在我国,随着计算机和网络技术的普及和发展,电子商务迅速崛起,许多信息技术企业、生产和流通企业纷纷开始电子商务。

  [0003] 2007年,世界电子商务继续快速发展,成为经济全球化的助推器。电子商务的广泛应用降低了企业经营、管理和商务活动的成本,促进了资金、技术、产品、服务和人员的全球流动,促进了经济全球化的发展。目前,电子商务的应用已成为决定企业国际竞争力的重要因素。亚马逊、EBAY、阿里巴巴等公司在中国的成功表明,电子商务正在引领世界服务业的发展,影响着未来的商业发展模式。

  [0004] 纵观全局,2007年,全球电子商务交易额达到12.8万亿美元,占全球商品交易额的18%。以美国为首的发达国家仍是电子商务的主力军,而中国等发展中国家的电子商务已成为国际电子商务市场的重要力量。 2007年,B2B电子商务仍占主导地位。 B2C、G2C、G2B、C2C等电子商务发展迅速,呈现多元化发展趋势。以大型骨干企业为主导的行业电子商务是B2B的主流力量,ASP等第三方电子商务平台已成为中小企业电子商务应用的成功模式之一.

  [0005] 网购时,用户面临的一大难题就是如何在海量的电商网站上找到自己想要的商品的评价信息。基于用户评论的搜索引擎是解决方案。这个问题的关键在于,当用户输入产品或产品属性时,意见搜索引擎根据关键词搜索索引文件,并返回最相关的产品意见信息。

  [0006] 目前,针对用户评论信息的意见搜索引擎还处于研究阶段。并且存在以下问题。一是没有充分考虑审稿信息的质量。二是没有考虑时间维度信息在搜索结果排名中的重要性。第三,没有对搜索结果进行统计分析和可视化。

  发明内容

  [0007](一)待解决的技术问题

  [0008] 有鉴于此,为了向潜在用户提供方便、高效的意见信息服务,以及解决现有意见搜索和排序方法存在的问题,本发明的主要目的在于提供一种意见搜索引擎。该方法是为了克服现有意见搜索引擎排名方法存在的仅考虑意见信息的相关性,未将搜索结果可视化等问题,为潜在用户提供更有效的意见信息服务。

  [0009] (二)技术计划[0010] 为了实现上述目的,本发明提供了一种实现意见搜索引擎排名的方法。该方法包括:

  [0011] 步骤Sl:使用网络爬虫抓取用户评论网页,对抓取到的网页进行预处理,从预处理后的网页中提取用户评论信息;

  [0012] 步骤S2:利用数据挖掘技术从用户的评论信息中提取产品的属性,并确定属性评论信息的极性,建立评论信息数据库;

  [0013]步骤S3,将评论信息数据库中所有用户评论信息文档的格式进行转换,构建用户评论信息文档的层次结构。用户评论信息文档的层次结构用于表示用户评论信息中的元数据信息和用户评论信息的具体内容,用户评论信息的具体内容以评论语句为单位表示,收录用户评论信息中的产品属性和观点极性。评论句子包括句子中收录的产品属性、观点极性和观点极性。句子的具体内容;

  [0014] 步骤S4:为转换后的用户评论信息建立倒排索引。倒排索引用于存储用户评论信息中的元数据,同时也对评论语句的具体内容进行索引。倒排索引是建立在句子级别的索引,而不是用户评论文档级别的索引;

  [0015] 步骤S5:将评论信息的相关性、评论信息的质量因子、评论信息的时间维度信息作为关键词对建立倒排的用户评论信息进行排序索引;

  [0016] 步骤S6:对搜索到的用户评论信息进行统计分析,可视化用户评论信息随时间变化的趋势信息,以及某商品属性的正负评价对比信息。

  [0017] 优选地,如步骤Sl所述对用户评论网页进行爬取,首先获取电子商务网站的URL,然后爬虫对这些电子商务采取广度优先的爬取策略。 commerce 网站 用于抓取。

  [0018] 优选地,步骤S1中提取的用户评论信息采用RoadRunner算法提取捕获的用户评论信息网页。

  [0019] 优选地,步骤S2中的数据挖掘技术为关联规则挖掘技术,判断属性评论信息的极性是判断用户对该属性的评论是肯定的还是否定的。

  [0020](三)益效

  [0021] 从上述技术方案可以看出,本发明提供的实现意见搜索引擎排名的方法有效地整合了用户评论信息的质量因素,充分考虑了时间维度信息,可以为潜在用户提供更准确、更相关、更及时的观点和信息服务。因此,本发明在一定程度上解决了现有视点的搜索排序方法存在的问题。同时,本发明对搜索结果进行统计分析,将用户评论信息随时间变化的趋势信息,以及某个产品属性的正负评价对比信息可视化,为潜在用户提供清晰的信息。和直观的用户评论信息。

  图纸说明

  [0022]图1为本发明提供的实现意见搜索引擎排名的方法的流程图;

  [0023] 图。图2为本发明实施例预处理步骤S1后的结果*敏*感*词*;

  [0024] 图。图3为本发明实施例步骤S2中对属性评论信息进行属性提取和极性判断的结果*敏*感*词*;

  [0025] 图4为本发明实施例的用户评论信息文档的层次*敏*感*词*;

  [0026] 图。图5为本发明实施例步骤S3转换后的结果*敏*感*词*; [0027] 图图6为本发明实施例中评论信息随时间变化的曲线图;

  [0028] 图7是根据本发明的一个实施例的用于比较前视图和后视图的直方图;

  [0029] 图。图8为本发明实施例用户搜索产品属性“Sony W55 Size”时系统返回的结果图。

  具体实现方法

  [0030]为使本发明的目的、技术方案和优点更加清楚明白,下面结合具体实施例并参照附图,对本发明作进一步详细说明。需要指出的是,所描述的实施例只是为了便于理解本发明,对本发明不具有任何限制作用。

  [0031]为了实现本发明的方法,考虑到算法涉及多线程捕获和倒排排序索引的建立,如果在单机上实现,最好保证处理器频率不低于2GHz,内存不低于1G,可用任何常用编程语言编写。

  [0032] 本发明提出的意见搜索引擎排序方法的总体流程如图1所示,具体包括:用户评论信息捕获(步骤Si)部分和评论信息数据库(S")的构建对于整个搜索引擎数据; 步骤S3将评论信息数据库中的所有用户评论信息文档转换为如图4所示的层次结构; 步骤S4为转换后的用户评论信息建立逆排序索引; 步骤S5为对用户搜索结果进行排序;步骤S6,对用户搜索结果进行统计分析和可视化。

  [0033] 基于图1所示的意见搜索引擎排名的实现方法流程图,参照图1,下面详细说明本发明提供的意见搜索引擎排名的实现方法的流程图。

  [0034] 步骤Sl:使用网络爬虫抓取用户评论网页,对抓取的网页进行预处理,从预处理后的网页中提取用户评论信息。

  [0035] 在该步骤中,抓取用户评论网页。首先获取电商网站网站的URL,然后爬虫采用广度优先的爬取策略抓取这些电商网站进行爬取。进行电子商务网站的目录抓取。由于本发明针对的是用户评论信息,所以爬取的目标网页主要来自电商网站,例如亚马逊。首先人工获取这些网站的网址,用自己编写的爬虫爬取这些电商网站。由于这些网站大部分是关于电商话题的信息,层次较少,所以采用了广度优先爬取的策略。参见图1中步骤Si,由于已经有很多成熟的网页爬取方法,因此不是本发明强调的内容。

  [0036] 使用RoadRunner算法从抓取到的用户评论信息网页中提取相关信息,主要是提取网站上发布的用户评论,RoadRunner算法参考:“RoadRurmer=Towards Automatic Data Extraction from Large WebSites,,.预处理结果如图2所示。

  [0037] 步骤S2:利用数据挖掘技术从用户的评论信息中提取产品属性,判断属性评论信息的极性,建立评论信息数据库。

  [0038] 本步骤提取的用户评论信息采用RoadRunner算法提取爬取的用户评论信息网页,即利用数据挖掘中的关联规则挖掘技术从步骤结果中提取产品sl预处理Attributes和对属性的评论,具体方法参考文献:《Mining Opinion Features in Customer Reviews》。然后判断属性的评论信息的观点极性,即判断用户对该属性的评论是正面还是负面,判断极性的方法是指:“Thumbs Up or Thumbs Down?语义定位应用对评论的无监督分类,,。

  5 提取结果如图3所示。

  [0039] 步骤S3:对评论信息数据库中所有用户评论信息文档的格式进行转换,构建用户评论信息文档的层次结构。

  [0040] 本步骤中,通过用户评论信息文档的层次结构来表示用户评论信息中的元数据信息和用户评论信息的具体内容。用户评论信息的具体内容以用户为单位表示评论语句以评论信息中的商品属性和观点极性为单位,评论语句收录商品属性、观点极性和收录的语句的具体内容在句子中。

  [0041] 将步骤S2的结果转换成如图4所示的层次结构,转换的结果如图5所示。这种层次结构可以清楚地表明用户评论文档的元数据和用户审核文件的具体内容。

  [0042] 步骤S4:为转换后的用户评论信息建立倒排索引。

  [0043] 本步骤中,建立的反向排序索引用于存储用户评论信息中的元数据,同时索引评论语句的具体内容。索引是在句子级别建立的索引。而不是用户评论文档级别的索引。为了能够快速找到用户需要的信息,我们对步骤S3中处理的结果建立倒排索引。所谓的倒排索引其实就是在搜索引擎中引用的。有时需要根据关键字的某些值来查找记录,所以我们根据关键字来建立索引。我们称这种索引为倒排索引,带有倒排索引的文件也称为倒排索引文件或倒排文件,以实现快速检索和高速化。 l 效率。注意,本发明的反向排序索引的特点是存储元数据。实施例中的元数据为:“非常适合多人的选择——携带方便,使用方便,,;”257/261,,; “2007 年 3 月 24 日”。用户评论信息的具体内容是以句子为单位索引的,而不是以用户评论信息文档为单位进行索引的。这样做的好处是用户评论信息文档往往对产品的多个属性进行评论,而每个句子一般只收录一个属性的评论信息,以句子为单位进行索引,有利于更精准的定位产品的属性用户查询。

  [0044] 步骤S5:对建立倒排索引的用户评论信息进行排序。

  [0045] 本步骤对建立倒排索引的用户评论信息进行排序,评论信息的相关性、评论信息的质量因子、评论信息的时间维度信息为关键词。本发明的排序方法不仅考虑了相关性,还考虑了用户评论信息和时间维度信息的质量因素。具体算法如下:

  一个。一种。 '

  [0046]品质因数计算公式-. Q 1 = t I ‘b 其中 OQi 是第 i 个用户评论文档

  y = 0 j

  质量因子 A 是阅读此评论并认为该评论有帮助的读者数量; bi 是阅读此评论的读者人数。

  f卜

  [0047]时间维度信息计算公式:TDF=i+expW·),其中TDEi为第i个用户评论文档

  ι 30*β

  时间维度信息A为用户发表评论信息的时间; t 是用户查询的时间; β 是一个常数。

  [0048] 相关计算公式(陈光义外)*Crest(邵寅家道,⑶叔),此公式。

  【0049】最终得分计算公式=FRi=αLR+(1-α)(TDFjOQi),其中FRi为第i个用户评论文档的最终得分。它将决定文件的最终顺序; α 是一个从 0 到 1 的常数。

  [0050] 下面给出一个计算排序的具体例子。为简单起见,以三个用户评论信息文档为例,如表1所示,本例中α=0.65,β=10。 [0051]

  

  [0052] 表 1

  [0053] 三个评论的质量因素是:

  [0054] [0055][0056]

  

  [0057] 三个评论的时间维度信息如下:

  [0058] [0059] [0060]

  

  [0061] 三个评论的相关性如下:

  [0062]LRi = 0.87

  [0063] LR2 = 0. 91

  [0064] LR3 = 0. 96

  [0065] 三个评论的最终得分为:

  [0066]FR1=0.65*0.87+0.35*(1.85+1.49)=1.73

  [0067] FR2=0.65*0.91+0.35*(0.99+1.51)=1.47

  [0068] FR3 = 0.65*0.96+0.35*(0.88+1.58)=1.49

  [0069]根据最终得分FIi1>FR3>FI?2,可以确定三个评论信息排名。

  [0070] 步骤S6:对用户评论信息进行统计分析和可视化。

  [0071] 本步骤中,用户评论信息的统计分析和可视化,是对搜索到的用户评论信息进行统计分析,分析用户评论信息随时间变化的趋势信息,并对正负评价各种产品属性的对比信息可视化。

  [0072] 为了给用户提供更直观的信息,需要对搜索结果进行可视化。评论信息随时间变化曲线的具体实现方法如下。月的基本单位用于统计某个产品每个月的评论数。然后以月份为横坐标,以每个月的评论数为纵坐标,得到用户评论信息随时间变化的趋势曲线,如图6所示。 正负意见对比直方图的实现方法信息是统计搜索结果中正面意见总数和负面意见总数,然后用直方图表示正面和负面意见的比较,如图7所示。 图8显示用户搜索到的产品属性“Sony W55 Size”是系统返回的结果图。左上为“Sony W55 Size”评论信息随时间变化趋势曲线,右上为“Sony W55 Size”正面和负面评价直方图,下为属性的具体评论信息“索尼 W55 尺寸”。 .

  [0073]上述具体实施例对本发明的目的、技术方案和有益效果进行了详细说明。应当理解,以上所述仅为本发明的具体实施例而已,并不用于限制本发明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应收录在本发明的保护范围之内。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线