内容采集(没有干货采集内容对SEO是否有效？(图))

优采云发布时间: 2021-10-20 20:16

　　[GOGO Chuang:] 太可惜了这么久才开通留言功能。

　　采集内容对SEO有效吗？

　　有人说采集的内容对搜索引擎不是很友好，也不容易获得排名。这是肯定的，也是不可避免的。

　　对于大多数网站来说，采集的内容肯定不如 UGC 或精心编辑的内容有效。但是，搜索引擎能够获取到的原创内容量已经没有以前那么多了。毕竟内容制作平台已经转移，早就不再专注于网站。其他几个搜索引擎还在互相追赶，更不用说小网站了。

　　因此，采集的内容仍然有效，但对采集的内容进行后处理的成本越来越高。

　　采集内容后处理

　　担心采集的内容太差或者容易被K攻击，主要看如何对内容进行后处理。打个比方：

　　这就像从沃尔玛拿一篮猕猴桃，完好无损地放进家乐福。最多只能是原价，因为猕猴桃还是猕猴桃，产品不变。但是把猕猴桃挤成汁（形状变化），加一点水装瓶（颗粒大小变化），在711卖（平台变化），价格可以翻倍（增值）

　　为什么？

　　因为形状变了，果汁是不同于水果的商品，果汁更容易吸收

　　因为平台变了，711定价本身比沃尔玛家乐福高一点

　　因为粒度变了

　　前三项变化导致价值翻倍

　　如果将“采集content”比作“猕猴桃”，则“采集content”的后处理策略如下：

　　形式

　　有无数种方式来组织内容。无论是将相同的内容拆分并分发到多个地方，还是将多个相关内容聚合在一个地方，或者其他方式，都可以让搜索引擎更容易接受。

　　平台

　　在技术行业有一个专业。从新浪对一些垂直行业内容的把握，到相应的行业垂直网站，绝对比放在新浪上更合适。把专业的内容变成专业的网站。

　　粒度

　　抓取相同的内容。粒度越细，原创在搜索引擎中的度就越高。举个极端的例子，星座股被命名为八卦、算命、生日、风水、算命、qq图片、动态图片……这种类型的站，哪些内容不重复？

　　获得

　　采集的目的是填补内容上的漏洞，让同一话题的内容比其他的更丰富、更充实，从而增加页面内容的价值。

　　采集内容完整流程

　　关于“采集内容处理”，从抓取到上线的整个过程，需要解决以下问题：

　　采集内容从何而来？

　　采集如何抓取内容？

　　采集如何处理内容？

　　采集内容从何而来？

　　对于认真认真的人，更适合定位采集，购买专业数据。

　　针对采集，只捕获了几个特定的网站特定范围，与本站内容漏洞高度相关。

　　对于那些不正式做网站的人来说，还有更多的选择。可以抓取点的内容，而且量大，所以不需要限制某些网站的抓取。有人称它为 pan采集

　　设置几个话题，直接抓取各大平台的搜索结果。大平台是什么意思？海量内容集中的地方：各种搜索引擎、各种门户、今日头条、微信微博、优酷土豆等。

　　采集如何抓取内容？

　　方向采集：

　　稍微，你可以做你通常做的任何事情。

　　潘采集：

　　有针对性的爬虫仅限于网页模板。在此基础上增加了几种内容分析算法来提取内容，改为通用爬虫。

　　很多浏览器插件，比如印象笔记之类的，都有很多类似“只看文字”的功能。一键只会显示当前网页的文字信息。很多人已经将这种算法移植到python、php、java等编程中，语言方面，随便搜索。

　　采集如何处理内容？

　　两个连续的过程：

　　原创内容的处理

　　整理处理后的内容

　　原创内容的处理

　　百度专利称，搜索引擎除了根据文本判断内容相似度外，还会判断html的dom节点的位置和顺序。如果两个网页的html结构相似，也可能被视为重复内容。

　　所以采集的内容不能直接上传，必须清理源码。每个人都有不同的方式，个人一般是这样做的：

'''

html清洗

保留主要标签：p、img

#删除标签中不重要的属性

'''

a = re.sub(r'','',content).strip()

b = re.sub(r']*?>','<p>',a)

newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

#删除中文字数 < 100字的

text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，:：。？、~@#￥%……&*（）“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)

text2 = re.sub(']*?>','',text)

words_number = len(text2)

　　删除垃圾邮件

　　如“XXX网编者：XXX”、邮箱等。.

　　整理处理后的内容

　　其实就是线条形式的变化。之前写过一篇关于“组织内容”的几种方式的文章，参见：【SEO】如何对网站的内容进行逆向处理？

0

2021-10-20

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集(没有干货采集内容对SEO是否有效？(图))

0 个评论

发起人

AI时代内容工厂

内容采集(没有干货采集内容对SEO是否有效？(图))

0 个评论

发起人

相关问题