seo文章采集器(阿里巴巴店铺采集流程原理及处理方法汇总!(二) )

优采云 发布时间: 2021-09-30 22:20

  seo文章采集器(阿里巴巴店铺采集流程原理及处理方法汇总!(二)

)

  一、采集

  工艺原理

  目前采集通常有两种方式:

  1.Orientation采集:按原点排序,设置条件采集,挑你有的,然后过滤!

  2.Pan采集:通用爬虫采集

  我们这里使用的是:在关键词的基础上,指定N个站点和目标采集

  原理:借用搜索引擎指令site:domain关键字

  原理图,*敏*感*词*

  

  二、内容处理

  1.标题

  方法一:精简原标题

  进行如下操作:

  原创标题的分割

  删除停用词

  获取词缀词性

  去掉形容词、副词、介词...等修饰语,保留原题主语、谓语、宾语,得到句子的词干

  通常基于jieba分词或者nltk实现,可以通过提前分析大量标题提取出需要删除的修饰语,并附加到词典中。.

  比如阿里巴巴的一些产品页面的标​​题就是这样处理的。去掉用户贴出的产品名称中一些不相关的词缀,提取主干放在标题标签中。

  方法二:插入搜索词

  进行如下操作:

  构建xunsearch或其他开源搜索,为采集标题创建索引

  使用事先准备好的搜索词(也就是要做的那些词)在搜索界面依次搜索

  在搜索结果中出现的标题之前插入当前搜索词

  我想做的一句话是“电动车电池的正确使用”

  例如匹配原标题

  “不要让过度放电毁了你的电动汽车电池”

  《黄山男子拆线偷电瓶车》

  ……………………

  然后在标题前插入关键词:

  “【电动车电池的正确使用方法】别让过放毁了你的电动车电池”

  或“【电动车电瓶的正确使用】黄山一男子通过拆线接电线偷电瓶车。”

  当然:“{插入的搜索词}{简化的原创标题}”

  方法三:在当前标题中插入派生词和已经收录搜索词的相关搜索词

  进行如下操作:

  获取标题已经收录搜索词的百度相关搜索或下拉框,

  在标题中插入相关搜索或下拉词

  如:“[{百度相关搜索词1}]{原标题}”、“[{下拉框推荐词1}{原标题}]”

  您还可以:[{百度相关搜索词1}]{简体原文标题}”、“[{下拉框推荐词1}{简体原文标题}]”

  2.文字内容

  正文的处理主要是为了重复,尽量减少与原文的相似度

  在正文的开头和结尾插入随机文本

  方法一:提前准备一些通用文本模板,随机调用,替换关键词

  方法二:在正文中随机剪切一段文字

  方法三:随机调出N个相关的文章标题和摘要,放在开头和结尾

  修改正文内容

  根据textrank算法提取文本摘要,放在正文前面。

  为了防止词数过少,可以提前使用k-means和tf-idf找出当前文章文章的相似度,提取出将最长正词的段落添加到当前文章 @文章 作为词数的补全。

  聚合页面

  聚合页面是从根中挖出的 10 个扩展词。每个扩展词生成一个列表页面或其他形式的聚合页面。页面内容为采集这个词对应的20条内容。

  这是最简单的模型

  常用型号

  

  以延伸词“正确使用电动车电池”为例

  聚合页面的内容应该是:

  如何保护充电器?

  如何延长电池寿命?

  电动汽车电池充电的环保要求?

  这种模型通常是机器+工人先预设模型,然后采集内容,再进行组合。

  *敏*感*词*:

  拓展词:九江是个适合购物的地方

  标题:关键字组合,

  

  内容:聚合页面、内容组合

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线