文章采集程序(采集百度知道后生成问答聚合详情页的流程初期思路篇)

优采云 发布时间: 2022-02-24 11:18

  文章采集程序(采集百度知道后生成问答聚合详情页的流程初期思路篇)

  采集百度知道问答方式,就不说了。我一定读过以前的博客。这只是几个脚本和 优采云 设置的交叉使用

  艾福沃的图案模仿。主域名+社区/详情/12713840/

  采集百度知道后生成问答聚合详情页的流程初步思路

  1、文章分词

  2、分隔的词有核心词创建标签页

  3、一页同标签的问答

  4、标题使用第一个问答的标题

  这里有几个问题:

  1、选项卡名称

  2、如何写标题

  3、你怎么知道问答内容和同一个标签的标题有关系?

  4、分词的步骤能不能简化

  解决方案:

  分词使用优采云内置分词方法,消除html后分词。(感谢大神)

  对单词进行排序后,排序到倒排索引表中

  标签和标签的组合成为标题。组合完成后,匹配倒排索引表,过滤掉文章,将组合后的关键词作为标题的核心词。

  每个标签可以创建一个标签页,标签页中放置的文章就是收录这个标签的文章

  倒排索引表的建立和使用:将单词分解后,取前10位,然后制作倒排索引表,再制作倒排索引表。将分割后的词组合成一个新标题(新标题中收录的关键词被凤凰巢过滤),新标题中收录的关键词进行并集匹配。这时候,就有一个可以匹配这个标题的问答了。

  小进步:简化倒排索引表的步骤,可以用excel的小计过滤掉小于4的单词,节省不少时间。

  再次和群里的人聊天,发现有些步骤不利于以后大量数据的使用,所以要改进,改进的方法是先生成一个标题列表,然后直接分词然后将其与倒排索引表匹配。如果大于等于3,就放在一起。

  kk提到如果使用倒排索引表会大大降低效率。他使用的方法是 Levenshtein.ratio 来检测标题的相似度,会和 关键词 相似度高的放在一起,并且内容是部分显示,没有完全显示。下面是聊天记录。

  伊西奥-Kk

  直接到标题 Levenshtein.ratio

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线