网站内容采集(百度推出“飓风算法”，哪些内容算是恶劣采集? )

优采云发布时间: 2021-12-15 02:38

　　网站内容采集(百度推出“飓风算法”，哪些内容算是恶劣采集?

)

　　2017年7月7日，百度正式上线“飓风算法”。根据官方文档，飓风算法的目标是网站，而不是网页；主要是针对采集的不良内容作为网站的主要来源，并不是所有收录不良内容的网站。

　　哪些内容被认为是不好的采集？不好的采集内容一般是指不花时间、精力、专业能力、人工整合的内容，或者对用户没有任何附加价值的内容。

　　一、这部分内容有以下几种：

　　1、来自其他网站的内容采集

　　包括整个页面内容为采集，主题内容为采集，或多条采集拼凑而成。这种类型的内容很容易识别。

　　2、采集后期轻度处理的内容

　　包括一些词句的修改，或者词批替换的使用（一些伪原创工具）。这种类型的识别稍微困难一些。

　　3、来自一些动态网站的内容采集

　　包括来自其他搜索引擎的采集搜索结果，采集新闻提要流。

　　注意几点：主要内容，不好的采集，附加值。

　　二、什么内容还不错采集？

　　为什么有些网站属于采集却不受影响，比如某个doc，某个wave。其实只要达到了一定的点，就还不错采集，重点是：给用户带来附加值。有两种类型的附加值：站点增益和内容增益。这时候可以引用百度搜索技术博客《谈网页价值》的一段话：

　　有人发表了一篇关于新闻事件的原创博客，后来被新浪转发到新闻频道。从描述的内容来看，这是一种重复。但这种重复只是主要内容的重复。一方面，它的转载带来了访问速度和稳定性的提升，后续检索用户可以通过“新闻事件+新浪”检索该新闻。这可以称为站点增益。另一方面，在转载过程中可能会更改页面标题，根据受众的不同，转载页面上可能会有更多有价值的评论和回复，也可能有指向其他相关事件的新闻。关联。这些可以称为内容增益。因此，即使题材内容没有变化，新浪的这篇转载也是有价值的，其稀缺性也很高。

　　同样的，另一方面，如果转载的网站是相当不知名的，它也不会带来站点名称/稳定性/速度增益。更有什者，转载后，在页面添加大量广告阻碍阅读，或仅转载部分内容不完整，此类转载，或采集，纯属重复，与采集相比与来源，没有搜索价值。

　　综上所述，对于主要内容重复的页面，我们应该评估是否有站点增益和内容增益。只有大量重复的页面根本没有增益，我们才应该认为它们的稀缺性很低。

　　三、这里的要点是：页面价值，增益

　　所以，只要能给用户带来网站收益、内容收益、附加值，就说明这个网页有自己独特的价值，不会受到飓风算法的打击。自从百度推出“飓风算法”以来，这些熟悉的网站都是最先被招募的。

　　7月7日拍摄网站，大部分是范文

　　7月6日拍摄网站，大部分是范文

　　躺*敏*感*词*案例：

　　躺*敏*感*词*案例：

　　受飓风算法影响怎么办？

　　飓风算法主要针对一文不值的采集，一旦招进来，就无解了。不小心受伤的优质原创可以通过反馈中心申诉。

　　所以，一旦被飓风算法击中，只要不是明显的意外受伤，短期内是没有办法解决的。（被搜索引擎算法命中很常见，如果不被搜索引擎接受，一般是没有办法申诉的，谷歌也是一样，只有人工处理才能申诉。）

　　如何避免被飓风算法击中

　　采集会被算法惩罚，内容完全是原创，成本很高。如何在不受飓风算法惩罚的情况下生成内容。事实上，解决方案是专注于内容增益。有几种解决方案：

　　1、添加用户评论模块

　　页面中添加了用户评论模块。当有用户评论时，评论内容也会成为页面内容的一部分，产生附加价值。作为用户，在阅读完内容后，他也希望看到真实用户的意见，比如内容是否真实、信息是否无效、是否有额外提醒等。不过需要注意的是评论的内容最好在源码中实现，而不是在JS中（方便搜索引擎识别）。

　　示例：网易新闻主题

　　2、添加内容推荐模块

　　根据网页主题，添加相关内容模块，如延伸阅读、往期报道、相关阅读等。关于“张艺兴”，你可以了解到他之前参加过哪些活动，有哪些绯闻，参加过极限挑战的进度，这些对用户来说都是非常有价值的。实现思路：一是手工编辑；另一种是算法实现，比如根据TF-IDF提取主体关键词，然后用关键词匹配历史内容。

0

2021-12-15

网站内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集(百度推出“飓风算法”，哪些内容算是恶劣采集? )

0 个评论

发起人

AI时代内容工厂

网站内容采集(百度推出“飓风算法”，哪些内容算是恶劣采集? )

0 个评论

发起人

相关问题