整套解决方案:基于内容的网页采集分类系统的设计与实现
优采云 发布时间: 2020-09-02 15:34基于内容的网页采集分类系统的设计与实现
[摘要]: 随着Internet的日益繁荣,Internet上的信息资源越来越多. 尽管人们获取知识很方便,但是也带来了信息过多和噪声信息更多的问题. 相反,它会影响用户对有效信息的搜索. 作为主流的Internet信息源,Internet新闻比其他信息源具有更大的研究价值. 有必要准确有效地采集并对互联网新闻进行分类. 它在信息检索和数据挖掘领域很重要. 意义. 基于Web内容的新闻分类可以充分考虑新闻内容的语义,避免由于网站新闻分类错误或未分类导致的采集结果错误,具有较好的分类效果. 本文针对网页正文采集的技术进行了深入研究,结合新闻网站的特点,制定了更有效的采集策略和更新策略,以确保新闻采集的有效性. 由于新闻网站的来源很多并且经常对网站进行修订,因此基于模板的文本提取技术无法再保证提取的准确性. 本文对网页文本提取技术进行了分析和比较,得出了一种基于文本分布的通用文本提取算法,并通过实验确定了算法的最优值,降低了人工编写规则的时间成本. 对于文本分类,本文研究和分析了文本分类的整个过程. 标记的LDA用于文本的特征表示. 与传统向量空间模型相比,减少了特征量,避免了语义信息的丢失. LDA模型被扩展为具有监督分类模型. 通过比较文本分类方法,选择支持向量机作为文本特征的分类器. 本文选择了搜狗汉语实验室的新闻语料库,并使用JGibbLabeledLDA和Scikit-learn实现了LLDA-SVM算法. 通过与其他方法的分类结果比较,验证了该分类方法的有效性,并将训练好的模型作为新的文本为分类做准备. 本文基于B / S架构实现了网页的采集分类系统,并给出了每个系统模块的具体设计和实现. 根据采集性能和分类准确性对系统进行评估和验证. 该系统的可行性.