自动关键词采集(基于大数据的政策采集、清洗及自动精准推送的方法)
优采云 发布时间: 2021-09-29 00:16自动关键词采集(基于大数据的政策采集、清洗及自动精准推送的方法)
1. 本发明属于计算机应用技术领域,具体涉及一种基于大数据的策略采集,一种清洗和自动准确推送的方法。
背景技术:
2. 企业的发展必须广泛了解国家和地方的相应政策和行业协会的要求,从而遵守国家法律制度,了解行业运行规则,充分利用政策红利,做大做强*敏*感*词*体,提高公司市场竞争力,为企业发展保驾护航。
3.随着《优化营商环境条例》的正式实施,在政策服务方面,明确指出政府部门要不断完善政策措施,落实惠企惠人才政策。优惠政策虽然种类繁多,但各项政策相对分散、适用条件不同、信息不对称等问题,导致很多企业和人才错失良策,得不到真正的支持。政策成了摆设,让企业、人才颇为失望。为完成政策服务“最后一公里”,让更多企业和人才获得政策红利,如何真正从海量数据中释放政策红利,解决后顾之忧,让企业获得更多优惠。知足创新、专攻创业的人才已成为信息技术处理领域的重要研究方向。
技术实现要素:
4. 针对上述精准策略推送的计算问题,本发明提出一种设计合理、方法简单、操作方便、可实现精准推送的基于大数据的策略。政策到相应企业采集,清洗和自动准确推送方法。
5.为了实现上述目的,本发明采用的技术方案是本发明提供了一种基于大数据的策略采集,一种清洗和自动准确推送的方法,包括以下有效步骤:
6.一个。首先根据以往政府政策的内容提取关键词,构建关键词集合,其中关键词集合包括主题关键词集合和约束关键词放;
7. b. 在初始地址url*敏*感*词*集中添加相关政府网站;
8.c. 使用主题关键词中的关键词组成主题爬虫。从初始地址url*敏*感*词*集开始,分析爬取网页的主题相关性,将与主题相关的网页存储到数据库中间;
9.d。分析数据库中网页的文本内容,根据约束集合关键词中的关键词提取收录关键词的句子;
10.e。根据约束关键词集分析提取的收录关键词的句子,得到关键约束属性集;
11.f. 根据约束关键词集,构造收录企业信息的企业推荐属性集;
12.g。将获取的关键约束属性集与公司推荐属性集进行一一比较,确认只有公司推荐属性集中的所有属性与关键约束属性集中的所有约束属性匹配。然后将收录该关键约束属性集的网页推送给企业。
13. 作为偏好,在步骤c中,当网络爬虫爬取url*敏*感*词*集中的网页时,先搜索一个
查看*敏*感*词*页面中的所有链接,然后搜索下一层的所有链接,然后返回下一层进行搜索,直到底层。
14. 作为偏好,步骤d包括以下有效步骤:
15.d1、 先选择合适的分隔符,将网页文本内容的句子分成句子集p={s1,...s
n
},其中n是句子总数;
16.d2、 然后对每个句子进行切分得到当前句子的切分集 si={w
i1
,..., w
我是
},其中m为当前句子切分集中的总词数;
17.d3、 根据公式:
18.ass(k,si)=||
19.其中,ass(kw,si)为关键词与当前句子的相关度;提取收录关键词的句子。
20. 优选地,关键约束属性集和企业推荐属性集均包括属性名称和属性值。
21. 作为偏好,在步骤g中,根据杜威十进制分类法的特点,确定企业推荐属性集的关键约束属性集和领域属性。
22. 作为偏好,在约束关键词集合中寻找关键词的分类号,根据杜威十进制分类方法寻找企业推荐属性集,然后使用杜威十进制分类方法关键词以数的长度为x轴,以关键词分类数为y轴,对应关键词的杜威十进制分类数关键约束属性集和企业推荐属性集绘制在二维坐标上。如果企业推荐属性集中关键词形成的点与关键约束属性集中的关键词点接近或重合,则判断域属性匹配成功,
23.与现有技术相比,本发明的优点和积极效果是:
24.1、 本发明提供了一种基于大数据的策略采集,一种清洗和自动准确推送的方法,根据策略文档的特点,整理出相应的关键词 ,然后利用网络爬虫抓取相关政策文件并分析政策文件,结合公司基本信息形成信息匹配,进而实现公司政策的精准推送,解决最后一公里问题为公司。更多的企业和人才将获得政策红利。同时,本发明方法简单,操作方便,适合*敏*感*词*推广使用。
详细方法
2 5. 为了更清楚地理解本发明的上述目的、特征和优点,下面结合实施例对本发明作进一步说明。需要说明的是,在不冲突的情况下,本技术实施例及实施例中的特征可以相互组合。
26. 在以下描述中,为了充分理解本发明,解释了许多具体细节。然而,本发明也可以以不同于这里描述的其他方式实施。因此,本发明并不限于以下公开的说明书中具体实施例的限定。
27.实施例1,本实施例提供了一种基于大数据的策略采集清洗和自动精准推送的方法
28. 首先根据以往政府政策的内容提取关键词,构建关键词的集合,网站的爬取主要利用网络爬虫进行爬取,现有网络爬虫有两种,一种是通用的网络爬虫,一种是基于主题的网络爬虫。与通用的网络爬虫相比,基于主题的网络爬虫更具针对性,而基于主题的网络爬虫则需要对应的主题。为此,在构建主题时,首先要根据策略先前发布的策略内容确定主题。据分析,对于申报类政策,正文中收录了“申报条件”的要求。因此,“声明条件”可以用作 关键词 之一。此外,
示范中心、“省级实验室”、“国家实验室”等申报政策,这些名称都可以作为专题网络爬虫抓取的专题关键词。
29.考虑到现有的文本摘要技术主要是利用大量的词出现在文本中,得到相应的关键词,在声明类别的声明条件中,出现的词是通常这是一次性的。为此,使用此类技术无法实现对政策的解释。为此,根据之前的策略声明要求,可以形成关键词,这样关键词@可以使用这种类型>,提取所需的声明条件。为此,根据政府以往政策文件的要求可以生成的关键词集合包括主题关键词设置为主题网络爬虫搜索和实现关键词
30.由于政府政策发布,在其他一些外网的网站上可以看到类似的文档,导致基于主题的网络爬虫根据主题爬取网站也会爬许多重复的文件。考虑到政府网站在发布相关政策要求时只会发布一次,于是将政府相关的网站添加到基于主题的网络爬虫中。初始地址url*敏*感*词*集可以避免大量重复文本的出现,从而免去重复计算,保留带宽,为快速筛选提供保障。考虑到申报类政策往往有县级、市级政策级、省级、国家级要求。为此原因,
3 1. 然后,利用主题关键词中的关键词,形成一个主题爬虫。从初始地址url*敏*感*词*集出发,分析爬取网页的主题相关性,将与主题相关的网页存储到数据库中,在本实施例中,考虑到政策往往发布在政府的第一个网站,为此,为了避免过度爬取,本实施例采用如下策略爬取:
32.表示网络爬虫在爬取url*敏*感*词*集中的网页时,首先搜索一个*敏*感*词*网页中的所有链接,然后搜索下一层的所有链接。下一层所有链接搜索完成后,返回进行下一层搜索,直到下一层。简单来说,假设政府网站a在b、c、d的主页上有3个链接,链接b、e、f下有2个链接,f下链接、g链接、链接c 下面的链接有h和i两个链接,d是我们需要查找的声明策略链接,基于主题的网络爬虫按照a、b、c、d、e、f的顺序进行, h, i, g 搜索,这种搜索可以保证对浅页面的及时处理,从而保证政策文件的快速查找,
3 3.存储爬虫检索到的网站后,需要对网页的文本进行解释。前面提到过,在普通文档中,声明要求中出现的词汇是通用的,只会出现一次而不是多次。一般出现较多的词是关键词主题的关键词。为此,为了更好地解读文献中的“举报条件”,在本实施例中,首先将原创网页结构过滤掉html标签、版本等信息后,提取正文信息,并然后选择合适的分隔符,将网页文本内容的句子划分为句子集p ={s1,...s
n
},其中n是句子的总数。考虑到保单相关文件中不会出现“?”等标点符号。和“!”,因此,在本实施例中,“。” 用作分隔符来造句。
34. 然后把每个句子分成词。分词可以使用现有的分词器完成。目前市场上常见的分词器有基于哈希表的词典机制和基于特里索引树的词典机制。以及基于python实现的trie数结构的jieba分词,这三种分词都可以满足分词的需要。因此,可以使用任何分词。本实施例采用基于python实现的trie数结构。jieba 分词,这样,得到
当前句子的分词集 si={w
i1
,..., w
我是
},其中m是当前句子切分集中的总词数。
35. 最后根据公式:ass(k,si)=||,其中ass(kw,si)为关键词与当前句子的相关度,k为约束关键词集合,提取收录关键词的句子,这样就提取集合中与约束关键词关键词相关的每一个句子,就是一个收录声明条件内容的策略文本被提取出来,以方便声明条件的确认。
3 6.提取的申报条件需要分析这些内容。目前可以采用textrank关键词提取技术,将关键词对的约束关键词集合对提取收录关键词的句子进行分析,得到关键约束属性集,textrank根据setconstraint关键词集合的选词窗口截取文本的分词结果,将每个词作为候选关键词图的一个节点截取每个段落中的词的文本作为相邻边来构建候选关键词图。然后,利用pagerank思想循环迭代候选关键词图,将每个节点的权重初始化为1.0f,待迭代次数稳定后,
3 7.也可以基于lda结合d2v模型算法进行训练,得到策略文本中心的关键约束属性集。在本实施例中,关键约束属性集是指政策文件中收录的属性名称。例如,在高新技术企业的申报条件中,其财务需求是保持销售收入和总资产的增长。企业,则其属性名称为销售收入,属性值为近三年增长率。
38. 同样,本实施例的主要目的是将相关政策推送给符合上报要求的公司。然后,您需要了解公司的基本信息。为此,需要遵循之前的策略,即约束关键词集构造了收录企业信息的企业推荐属性集,企业的推荐属性集也是根据属性名称设置的和属性值。即企业的推荐属性集包括多个信息属性,每个信息属性形成一个集合。该集合至少包括两个属性:属性名称和属性值。当然,属性名和属性值是最基本的两个。
39.因为在一些项目的申报中,申报领域是有限的。因此,企业是否符合申报领域也是一票否决的关键问题。为此,根据国际通用的杜威十进制分类方法确定企业的约束属性集和推荐属性集的领域属性。杜威十进制分类法是根据17世纪英国哲学家培根的知识分类思想,将人类知识分为记忆(历史)、想象(艺术和文学)和理性(哲学,即科学),并排列将它们倒置扩大为 10 类,这也是当前申报政策文件中常用的。通过这种方式,可以判断企业的领域是否符合申报领域的要求。具体操作如下:
4 0. 首先根据杜威十进制分类法,求出约束关键词集和企业推荐属性集关键词的分类号;
41. 然后以杜威十进制分类数关键词的长度为x轴,以关键词分类数为y轴,把key约束属性集将企业推荐属性设置为关键词对应的杜威十进制分类号,在二维坐标中绘制对应点。如果企业推荐属性集中关键词形成的点与关键约束属性集中的关键词点接近或重合,则判断域属性匹配成功。如果距离较远,则域属性匹配不成功。这种分配方式可以避免与关键词无关的噪音,提高预测企业领域和报告需求的准确性,
42.解释申报条件后,需要实现精准推送。为此,本实施例采用如下算法进行精准推送:
43. 首先将得到的关键约束属性集与公司推荐的属性集进行比较,得到关键约束属性集
它由若干个约束{c1,c2,...cn}组成,相同类型的属性名是唯一确定的,关键约束属性集的约束关系是联合关系,这样只有所有的属性在属性集由公司推荐 只有当关键约束属性集中的所有约束属性都匹配成功时,才能满足声明条件。为此,可以将收录该关键约束属性集的网页推送给企业。
44. 通过以上设置,有效实现了申报政策的精准推送,打通了政策服务的“最后一公里”,让更多的企业和人才获得了政策红利。
45. 以上所述仅为本发明的优选实施例而已,并不用于以其他形式限制本发明。任何熟悉本行业的人员均可利用上述公开的技术内容进行更改或修改。等同变化的等效实施例适用于其他领域,但凡基于本发明技术实质对上述实施例所做的简单修改、等同变化和变型本发明在不脱离本发明技术方案内容的情况下,仍属于本发明技术。方案的保护范围。