seo文章采集器(阿里巴巴店铺采集流程原理及处理方法汇总!(二) )
优采云 发布时间: 2021-09-30 22:20seo文章采集器(阿里巴巴店铺采集流程原理及处理方法汇总!(二)
)
一、采集
工艺原理
目前采集通常有两种方式:
1.Orientation采集:按原点排序,设置条件采集,挑你有的,然后过滤!
2.Pan采集:通用爬虫采集
我们这里使用的是:在关键词的基础上,指定N个站点和目标采集
原理:借用搜索引擎指令site:domain关键字
原理图,*敏*感*词*
二、内容处理
1.标题
方法一:精简原标题
进行如下操作:
原创标题的分割
删除停用词
获取词缀词性
去掉形容词、副词、介词...等修饰语,保留原题主语、谓语、宾语,得到句子的词干
通常基于jieba分词或者nltk实现,可以通过提前分析大量标题提取出需要删除的修饰语,并附加到词典中。.
比如阿里巴巴的一些产品页面的标题就是这样处理的。去掉用户贴出的产品名称中一些不相关的词缀,提取主干放在标题标签中。
方法二:插入搜索词
进行如下操作:
构建xunsearch或其他开源搜索,为采集标题创建索引
使用事先准备好的搜索词(也就是要做的那些词)在搜索界面依次搜索
在搜索结果中出现的标题之前插入当前搜索词
我想做的一句话是“电动车电池的正确使用”
例如匹配原标题
“不要让过度放电毁了你的电动汽车电池”
《黄山男子拆线偷电瓶车》
……………………
然后在标题前插入关键词:
“【电动车电池的正确使用方法】别让过放毁了你的电动车电池”
或“【电动车电瓶的正确使用】黄山一男子通过拆线接电线偷电瓶车。”
当然:“{插入的搜索词}{简化的原创标题}”
方法三:在当前标题中插入派生词和已经收录搜索词的相关搜索词
进行如下操作:
获取标题已经收录搜索词的百度相关搜索或下拉框,
在标题中插入相关搜索或下拉词
如:“[{百度相关搜索词1}]{原标题}”、“[{下拉框推荐词1}{原标题}]”
您还可以:[{百度相关搜索词1}]{简体原文标题}”、“[{下拉框推荐词1}{简体原文标题}]”
2.文字内容
正文的处理主要是为了重复,尽量减少与原文的相似度
在正文的开头和结尾插入随机文本
方法一:提前准备一些通用文本模板,随机调用,替换关键词
方法二:在正文中随机剪切一段文字
方法三:随机调出N个相关的文章标题和摘要,放在开头和结尾
修改正文内容
根据textrank算法提取文本摘要,放在正文前面。
为了防止词数过少,可以提前使用k-means和tf-idf找出当前文章文章的相似度,提取出将最长正词的段落添加到当前文章 @文章 作为词数的补全。
聚合页面
聚合页面是从根中挖出的 10 个扩展词。每个扩展词生成一个列表页面或其他形式的聚合页面。页面内容为采集这个词对应的20条内容。
这是最简单的模型
常用型号
以延伸词“正确使用电动车电池”为例
聚合页面的内容应该是:
如何保护充电器?
如何延长电池寿命?
电动汽车电池充电的环保要求?
这种模型通常是机器+工人先预设模型,然后采集内容,再进行组合。
*敏*感*词*:
拓展词:九江是个适合购物的地方
标题:关键字组合,
内容:聚合页面、内容组合