网站内容管理系统论文(自然语言处理在网站分类中的应用(,该文处理))

优采云 发布时间: 2022-01-06 21:03

  网站内容管理系统论文(自然语言处理在网站分类中的应用(,该文处理))

  自然语言处理在网站分类中的应用。本文为网站毕业论文格式样本和自然语言处理与网站分类与应用本科论文样本。

  在 网站 论文参考中:

  

  1 简介

  为防范互联网上的非法网站经营活动,打击不健康的互联网信息传播,2005年,(原信息产业部)公开发布了《非营利性互联网信息备案*敏*感*词*》。服务》(令第33号),从事非商业性互联网信息服务的网站需注册。根据中国互联网协会和国家互联网应急中心联合发布的《互联网行业运行指数-中国网站》报告统计,截至2017年底,网站在我国达到526.0600万。网站 备案信息是分析信息产业发展水平、区域和行业信息化水平的重要数据来源一.,但由于网站备案机制的限制和质量历史数据,网站备案信息存在滞后、准确率低、信息缺乏、信息粒度大等问题。由于网站数量庞大,通过自动化的方法满足数据需求是解决这些问题的关键。和大信息粒度。由于网站数量庞大,通过自动化的方法满足数据需求是解决这些问题的关键。和大信息粒度。由于网站数量庞大,通过自动化的方法满足数据需求是解决这些问题的关键。

  2 需求分析

  2.1 问题描述

  本文是为了解决网站的分类问题,即根据实际业务需求,将多个网站按照一定的标准进行分类。例如,按行业分为农业、制造业、资源能源生产与供应、建筑、交通、邮电、信息传输、计算机服务与软件、金融与房地产租赁、生活服务、教育和科研、文化、体育和娱乐、公共服务等11个门类。

  2.1 个输入

  (1)网站地址列表信息:S等于{Si},1≤i≤N,其中N代表网站的总数,Si代表第i个< @网站网站地址。

  (2)目标分类信息:C等于{Ck},1≤k≤M,其中M代表类别总数,Ck代表第k个类别。目标分类信息是分类参考的标准.

  2.2 输出

  分类结果:每个网站对应的目标分类SC等于{SCi}等于{Si->C(i)},1≤i≤N,C(i)?C,其中C(i) ) 表示 网站Si 对应的类别。

  3 网站 基于自然语言处理的分类方法

  3.1 总体思路

  网站 分类是一个使用文本信息的分类问题。重点主要是网站特征提取、网站分类算法、训练集获取。在网站特征提取方面,由于网站地址携带的信息量较少,考虑使用网站的内容作为网站的特征, 网站、网站的分类,首页的关键词作为量化特征。对于网站分类算法,通常选择常用的分类算法,但需要根据网站特征定义两个样本之间的距离。在训练集中得到的一方面,由于没有现成的训练集,

  3.2 网站 特征提取

  选择网站(以下简称“网页文档”)首页内容的关键词作为网站特征,可以使用TF-IDF(Term Frequency-逆文档频率)方法。IDF 是一种统计方法,用于评估单词对文档集或语料库中文档的重要性。主要思想是,如果一个词或词组在一个文章 TF中出现的频率很高,很少出现在其他文章中,则认为这个词或词组具有很好的分类能力并且适合分类。从计算公式来看,TF-IDF等于TF×IDF,TF(Term Frequency)表示词频,如果一个词在文档中出现的频率越高,则认为该词越重要,

  使用TF-IDF方法提取网站特征的具体步骤包括三个方面:统计词频、计算TF-IDF值、特征值标准化。

  (1)统计词频。网站的词频是通过web文档的分词得到的,网站si的web文档的词频等于{ (wordij,freqij)}, 1≤j≤WNi,其中WNi表示网站Si的web文档中收录的不同词的数量。

  (2)计算TF-IDF值。使用TF-IDF方法计算每个网页文档中每个关键词的TF-IDF值,并根据TF-IDF值对文档进行排序. 根据关键词的个数或TF-IDF值的大小,选择第一个KWNi作为web文档关键词,得到tfidfi等于{(keywordij,tfidfij)},1≤ j≤KWNi,KWNi表示网站Si web文档的数量关键词。

  (3)特征值的标准化。将上一步计算的TFIDF值统一,tij等于tfidfij/sqrt(Sj(tfidfij)^2),得到最终的网站特征值ti等于{ (keywordij, wij)},1≤j≤KWNi。

  3.3 网站 分类算法

  在本文中,网站 分类算法使用 K 个最近邻(kNN,k-NearestNei*敏*感*词*or)。kNN算法的核心思想是,如果一个样本在特征空间中,k个最近邻中的大部分属于某个类别,那么这个样本也属于这个类别并且具有这个类别中样本的特征. 该方法在确定分类决策时仅根据最近的k个样本的类别来确定要划分的样本的类别。

  在kNN算法中,我们需要找到最近的k个样本,所以需要定义两个样本之间的距离。定义距离的核心思想是,如果两个web文档相同的关键词越多,关键词权重分布越接近,两个文档越相似,文档越接近是。具体公式如下:

  其中,ti和tj是两个web文档的特征值向量,N(i)和N(j)是web文档中关键词的个数。

  3.4 获取训练集

  本文采用分类映射的方法间接获取训练集。分类映射方法的核心思想是,如果分类方法C1、C2已知,并且C1的分类粒度小于C2,那么可以使用C1训练目标集的C2分类放。因此,考虑使用公开的细粒度网站分类目录作为分类算法的训练数据。

  目标分类的定义为C2,即最终的分类方法。比较细粒度的分类C1称为中间分类,是基于C1的训练集训练模型得到的分类。使用分类映射方法后,我们的网站分类在模型训练过程和模型分类过程中都需要做相应的调整。

  (1)模型训练过程调整。使用C2训练集数据得到分类模型。

  (2)模型分类过程调整。根据分类模型,得到每个网站的中间分类C2,然后根据唯一性得到每个网站的目标分类C C2和C1的映射关系。1.

  4 应用实现

  网站 作为一个大数据分析应用,分类有六个典型的环节(见图1),分别是数据采集、数据清洗、数据存储、数据处理、数据分析、可视化,其中data采集是确定数据源并从数据源中获取数据,数据清洗是对数据采集的原创数据中的不规则内容进行过滤和清洗,数据通过一个关系数据库 数据以文本数据等不同形式存储,数据处理是对数据的基础处理,主要是为下一步数据分析做准备,数据分析是业务层面的数据分析,以达到最终的分析目标。可视化是应用最终的输出,可以根据业务的实际需要选择不同的呈现方式。本节主要从这6个环节介绍一个采用上节提出的网站分类方法实现的申请案例:针对某省7万多件网站按行业分类,共11个类别被分类。

  4.1 个数据采集

  (1)网站列表数据。网站列表数据由需求方提供。

  (2)网站页面文档数据。网站页面文档数据是通过从网站地址抓取所有网站首页内容(即web文档)获得的。

  (3)训练集数据。训练集数据分两步获取。首先找到训练集数据源,然后使用爬虫方法获取训练集数据,包括网站列表, 网站页面内容和网站对应的分类。

  4.2 数据清洗

  (1)网站地址数据清洗。处理网站地址的不规范问题,如将网站的多个*拆分,统一*为“”开头,去除*结尾空格, 等等。

  (2)网页文档数据清洗。对数据采集链接中获取的网页文档内容进行清理和提取,包括去除网页文档中的标签,去除开头和结尾的空格,以及对无法访问的网页进行标记, 选择网页文档中的关键字、标题、描述和全文内容作为有效内容等。

  (3) 训练数据清洗。清洗内容数据与网站相同。

  4.3 数据存储

  MySql 数据库用于存储数据。目标网站和训练网站数据分别存放在Site target 网站表和Sitetrain training 网站表中。

  4.4 数据处理

<p>使用中文信息处理方法对网页文档进行分割,统计词频。下面是lynx电影()的例子,web文档见表

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线