从网页抓取数据(从网页抓取数据的角度来说是选择性分析。)
优采云 发布时间: 2021-11-16 23:01从网页抓取数据(从网页抓取数据的角度来说是选择性分析。)
从网页抓取数据的角度来说是公开数据分析。以自然语言分析为例,主要任务就是从内容中提取关键词,然后用lda、dbn等方法去构建表示论文内容或者文章题目的表示模型。lda、dbn都是nlp任务,或者考虑文本分类,也要求实体关系(entityrelation)中与其语义和实体相关性高的词同时出现在表示里面才能推断出实体的词向量。
从数据整理角度来说是选择性分析。你既可以说这个数据是ugc的数据,那么来源自用户,也可以说这个数据是retrieved-to-ugc的数据,那么作者发表的fullform的内容的邮件或者文章,也可以说它是ugc或者retrieved-to-ugc的数据。这就是选择性分析。希望你能对你想研究的话题有帮助。
分析方法一般有以下几种:1.基于图的分析方法图最好是基于一些生成算法的,也就是变量的生成算法,而不是简单的分析图,比如图模型,马尔可夫链;也可以基于特征的聚类算法,比如adaboost等。2.文本聚类算法实际上就是用所有的词,自动生成各种好几类文本,你看到了x,y关系的词,比如“数字”和“好像”,分别生成“数字”和“好像”的文本;看到“表格”和“号”,生成“表格”和“号”的文本。
3.基于条件归纳算法(crf)的图分析算法这个比较偏向于统计学领域了,建议掌握np问题的求解,以及蒙特卡洛树搜索,以便自己设计图分析算法。4.聚类算法集成分析(clusteringaggregationbasedmethods)建议掌握聚类算法和降维算法。5.基于密度的分析算法这个你懂的。还有一些隐变量问题,什么注意力机制,隐马尔科夫等等。
实际上,这些分析方法中都有一些核心的东西是通用的,也就是基于统计学的。基本只要你写一个自动问卷,然后根据用户投票,和自动发现用户偏好,都是可以用统计学方法解决的。