没有干货采集内容对SEO是否有效?(图)
优采云 发布时间: 2021-08-09 06:14没有干货采集内容对SEO是否有效?(图)
[GOGO Chuang:] 这么久才打开消息功能,真是可惜。这篇文章是为了新鲜尝试这个渣图的消息功能。没有干货。
采集 内容对 SEO 有效吗?
有人说采集内容对搜索引擎不友好,排名不容易。这是必然的,也是不可避免的。
对于大多数网站来说,采集 的内容一定不如 UGC 或精心编辑的内容有效。但是,搜索引擎可用的原创 内容数量没有以前那么多。毕竟内容制作平台已经转移,早就不再集中在网站上。其他几个搜索引擎还在互相追赶,更不用说小网站了。
所以采集内容仍然有效,但采集内容的后期处理成本越来越高。
采集内容后处理
担心采集的内容效果不好或者容易被K,主要看如何对内容进行后期处理。例如:
这就像从沃尔玛拿一篮猕猴桃,完好无损地放进家乐福。最多只能是原价,因为猕猴桃还是猕猴桃,产品不变。但是把猕猴桃挤成汁(变形),加一点水装瓶(改变颗粒大小),在711卖(换平台),价格可以翻倍(增值)
为什么?
因为形状变了,果汁是不同于水果的商品,果汁更容易吸收
因为平台变了,711定价本身比沃尔玛家乐福高一点
因为粒度变了,一切都会在一命二二三三重生。
前三个的变化导致价值翻倍
如果把“采集内容”比作“猕猴桃”,“采集内容”的后处理策略如下:
表格
组织内容的方式有无数种。无论是将相同的内容拆分并分发到多个地方,还是将多个相关内容聚合在一个地方,或者其他方式,都可以让搜索引擎更容易接受。
平台
技术行业有专长。从新浪对一些垂直行业内容的抓取,到相应的行业垂直网站,绝对比放在新浪上更合适。把专业的内容放到专业的网站。
粒度
内容也被抓取。粒度越细,在搜索引擎中的原创度就越高。举个极端的例子,星座股被命名为八卦、算命、生日、风水、算命、qq图片、动态图片……这种类型的站,有哪些内容不重复?
收获
采集的目的是填补内容的漏洞,让同一主题的内容比其他的更丰富、更充实,增加页面内容的价值。
采集Content 完整流程
关于“采集内容处理”,从抓取到上线的整个过程,必须解决以下问题:
采集 内容从何而来?
采集如何抓取内容?
采集如何处理内容?
采集 内容从何而来?
对于认真认真的人,更适合定位采集,购买专业数据。
针对采集,只抓取几个特定的网站特定范围,与本站内容漏洞高度相关。
对于那些不正式做网站的人来说,还有更多的选择。可以抓取到点点滴滴的内容,而且数量大,所以不需要限制某些网站的抓取。有人称之为 pan采集
设置几个主题,直接抓取各个大平台的搜索结果。大平台是什么意思?海量内容集中的地方:各种搜索引擎、各种门户、今日头条、微信微博、优酷土豆等
采集如何抓取内容?
定位采集:
稍微,你可以做你平时做的任何事情。
Pan采集:
目标爬虫仅限于网页模板。在此基础上增加了几种内容分析算法来提取内容,改为通用爬虫。
很多浏览器插件,比如印象笔记,都有很多类似“只看文字”的功能。单击可仅显示当前网页的文本信息。很多人已经将这样的算法移植到python、php、java等搜索编程语言中。
采集如何处理内容?
两个连续的过程:
原创内容的处理
整理处理后的内容
原创内容的处理
百度专利称,除了根据文本判断内容相似度外,搜索引擎还会判断html的dom节点的位置和顺序。如果两个网页的html结构相似,也可能被视为重复内容。 .
所以采集的内容不能直接上传,必须清理源码。每个人都有不同的方式,个人一般是这样的:
'''
html清洗
保留主要标签:p、img
#删除标签中不重要的属性
'''
a = re.sub(r'','',content).strip()
b = re.sub(r']*?>','<p>',a)
newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()
#删除中文字数 < 100字的
text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)
text2 = re.sub(']*?>','',text)
words_number = len(text2)
删除垃圾邮件
如“XXX网络编辑:XXX”、邮箱地址等。 .
整理处理后的内容
其实在形式上的变化,我之前写过一篇关于“组织内容”的几种方式的文章,见:【SEO】网站content怎么用?