文章采集程序(采集百度知道后生成问答聚合详情页的流程初期思路篇)
优采云 发布时间: 2022-02-24 11:18文章采集程序(采集百度知道后生成问答聚合详情页的流程初期思路篇)
采集百度知道问答方式,就不说了。我一定读过以前的博客。这只是几个脚本和 优采云 设置的交叉使用
艾福沃的图案模仿。主域名+社区/详情/12713840/
采集百度知道后生成问答聚合详情页的流程初步思路
1、文章分词
2、分隔的词有核心词创建标签页
3、一页同标签的问答
4、标题使用第一个问答的标题
这里有几个问题:
1、选项卡名称
2、如何写标题
3、你怎么知道问答内容和同一个标签的标题有关系?
4、分词的步骤能不能简化
解决方案:
分词使用优采云内置分词方法,消除html后分词。(感谢大神)
对单词进行排序后,排序到倒排索引表中
标签和标签的组合成为标题。组合完成后,匹配倒排索引表,过滤掉文章,将组合后的关键词作为标题的核心词。
每个标签可以创建一个标签页,标签页中放置的文章就是收录这个标签的文章
倒排索引表的建立和使用:将单词分解后,取前10位,然后制作倒排索引表,再制作倒排索引表。将分割后的词组合成一个新标题(新标题中收录的关键词被凤凰巢过滤),新标题中收录的关键词进行并集匹配。这时候,就有一个可以匹配这个标题的问答了。
小进步:简化倒排索引表的步骤,可以用excel的小计过滤掉小于4的单词,节省不少时间。
再次和群里的人聊天,发现有些步骤不利于以后大量数据的使用,所以要改进,改进的方法是先生成一个标题列表,然后直接分词然后将其与倒排索引表匹配。如果大于等于3,就放在一起。
kk提到如果使用倒排索引表会大大降低效率。他使用的方法是 Levenshtein.ratio 来检测标题的相似度,会和 关键词 相似度高的放在一起,并且内容是部分显示,没有完全显示。下面是聊天记录。
伊西奥-Kk
直接到标题 Levenshtein.ratio