网站自动采集发布(技术性贸易壁垒预警机制的核心,如何建立召回案例数据库?)

优采云 发布时间: 2021-09-15 00:08

  网站自动采集发布(技术性贸易壁垒预警机制的核心,如何建立召回案例数据库?)

  我国纺织服装贸易面临越来越多的技术性贸易壁垒。 2008-2010年,纺织品服装产品召回中国的数量约占欧盟非食品商品快速报警系统网站(RAPEX)召回总量的50%。据国家质量监督检验检疫总局统计​​,2009年,我国34.3%的出口企业不同程度受到国外技术贸易措施的影响,造成直接损失574.320亿美元。因此,建立技术性贸易壁垒快速反应机制对于指导我国纺织企业在国际贸易中的健康发展尤为重要。

  技术性贸易壁垒预警机制的核心在于能够及时掌握国外市场信息动态。因此,及时准确的采集和相关信息的分析是必不可少的。召回案例是各种因素综合作用的结果,具有代表性和预测性。因此,及时了解和分析相关*敏*感*词*国的动态召回信息,建立召回案例数据库具有重要意义。

  目前国内对召回案例的研究主要倾向于对一段时间内的召回案例进行统计分析,而几乎没有提到如何建立召回案例数据库。本文以RAPEX网站发布的召回信息为例,利用采集自动化技术和文本信息预处理技术,探索利用计算机技术建立纺织服装召回案例数据库的方法,以期提供纺织品技术性贸易壁垒预警机制技术支持。

  1 纺织品召回信息网页数据自动采集技术

  发达国家实施的召回案例一般在官方指定的网站上公布,如欧盟非食品快速预警系统网站(RAPEX)、美国消费者安全委员会网站等。网络信息通常以 HTML 网页的形式存在于 Internet 上。要想充分利用这些信息,实现信息的分析和处理,首先必须从网页采集中获取信息和数据。

  Web数据自动采集技术是近年来计算机应用的新兴课题之一。目前有一些成功开发的软件应用,如Soukey、优采云采集器等,本文采用优采云采集器技术,根据互联网的特点,通过5个步骤实现采集的自动化@网上的纺织品召回信息(图片1).

  1.1 网站selected

  网站选择的原则是首先保证网站发布的信息内容与研究问题相关且独立,其次考虑信息来源、覆盖面、信息更新的及时性。

  欧盟纺织品召回信息基本通过RAPEX网站发布,这是欧盟国家相关职能部门和市场监管部门形成协作网络的基础。此网站信息及时、可靠、全面、权威性。因此,笔者认为,想要及时了解欧盟纺织品召回信息,RAPEX网站是最佳选择。

  1.2 确认网址采集Rules

  URL采集规则是指根据需要采集内容的网页在网站结构中的位置制定对应的规则给采集URL。 The appropriate choice of the URL 采集depth is related to the efficiency of the information 采集.一般来说,URL采集depth的确定应该遵循采集depth原则。对于动态URL链接页面采集的内容,由于必须先从主页上的动态采集获取URL,所以采集的深度至少为1。

  RAPEX网站每周更新召回案例发布,因此采集周期可以相应确定。根据网站的特点,设置URL采集的最小面积。本区所有链接均为recall case链接,采集和采集depth需设置为1。

  调用案例实时数据的采集规则与调用案例历史数据的采集规则类似,只是增加了两条规则,即任务调度规则(采集任务时的时间规则计划运行)和重复 URL 检测规则(当检测到重复 URL 时立即停止采集)。

  1.3 制作内容采集rules

  Content采集是指通过制定一系列规则,对HTML代码中的内容进行分析和提取。制定内容采集规则时,首先要给需要采集的内容添加标签,并确定是否采用循环采集方式;其次,在相应的标签下制定规则采集内容,并检查采集内容的初步处理和存储设置。

  RAPEX网站的召回案例信息以表格的形式发布在网络上,每个召回案例可视为采集的最小单位。 网站发布的召回案例信息包括6项,即“No.Ref”。 (召回编号)、“Notifying country”(召回国家)、“Product”(召回产品)、“Danger”(危险性)、“通知国采取的措施”、“产品被发现并采取措施”(召回)其他国家的同类产品和采取的措施)。本文分别为这6个项目设置标签,并循环采集内容。每个循环匹配项作为新记录添加以形成结构化数据文件。对于采集textile 召回案例信息,需要添加内容排除规则,使得标签“Product”下的采集内容必须收录“Category:Clothing”。

  1.4 发布内容

  信息data采集之后,需要将采集的信息数据导出生成一个方便数据操作的文件,或者直接导入到指定的数据库中。

  RAPEX网站上采集的信息数据可以保存为csv格式,直接导入数据库。以csv格式保存的文件可以用Excel软件进行分析处理,直接导入数据库的信息作为原创信息进行查询。

  1.5 任务调度

  任务调度功能可以实现召回案例库的及时更新,控制相应任务的运行时间和结束时间。任务调度的相关设置取决于网站更新时间和对实时信息的依赖程度。 RAPEX网站每周五发布本周召回信息,因此可以安排相应的采集任务每周六运行一次,方便及时采集和相关信息的分析。

  2 纺织品召回信息预处理技术

  Auto采集的信息内容一般为数字或文本形式,因此信息处理技术相应地分为数字信息处理技术和文本信息处理技术。目前,分析和处理数字或文本信息的方法有很多成熟的方法,如数据挖掘技术中的假设检验、回归分析、关联分析、决策树分析、聚类分析、神经网络模型等,但直接在text 信息处理方法尚未报道。

  短信的语言是计算机无法理解和识别的人类语言,计算机只能将短信识别为字符串。因此,将特殊的词或结构提取为特殊的字符串,并由计算机对其进行识别和识别,是处理文本信息的主要思想。本文使用Excel软件对文本信息进行预处理。

  IF(IFERROR(FIND(特征词,文本信息所在单元格),0)=0, 0,1)(1)

  公式的作用(1)主要用于检测文本信息中是否收录某个特征词,如果有,则标记为1;如果没有,则标记为0。因此,文本信息的处理可以看作是基于信息中的关键词的分类过程,最简单的分类就是“是”和“非”的分类,每个复杂的分类过程可以分解成几个简单的分类处理,也就是分成几个“是”和“不是”的A类。

  在对文本信息进行分类的过程中,应遵循先粗分类再细分的原则,即对收录显着关键词特征的类别进行筛选分离,再对分类后的类别进行细分这样一方面可以提高分类效率,另一方面可以尽可能避免分类重叠,提高分类准确率。

  分析我国2010年欧盟召回案例的文字信息,发现纺织品召回案例的召回原因类型并不复杂,主要特征词是14682、azo、分离、DMF其中,14682为欧洲标准EN14682,主要指纺织品中的绳索不符合欧洲标准或发生危险事故; azo是指偶氮染料,即纺织品中禁用的偶氮染料超标; detached是指脱离,即纺织品上小部件的连接强度不够,容易脱落; DMF是指*敏*感*词*甲酰胺,即纺织品中检出*敏*感*词*甲酰胺;铬是指铬,即纺织品中铬的含量超标。使用这些特征词对2005-2010年纺织品召回案例进行分类,准确率可高达94.4%。

  利用特征词识别文本信息并转化为简单的文本信息,可以利用相关数据分析工具对采集到达的文本信息进行分析,监测国外纺织品技术性贸易壁垒的动态趋势,及时给出预警。

  3 结束语

  本文以RAPEX网站发布的召回信息为例,基于优采云采集器软件,选自网站、网址采集、内容采集、发布设置、任务调度这些步骤讨论了在互联网上实现自动采集纺织品召回信息的相关要求和技术,以及对采集文本信息进行预处理的方法。利用这些技术和方法,本文可以自动采集并对RAPEX网站发布的纺织品召回信息进行分类,准确率可以高达94.4%,达到自动建立纺织品的目的召回案例数据库。为监测国外纺织品技术性贸易壁垒的动态趋势和及时预警提供及时有效的数据支持。

  参考文献(略)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线