采集知名小说网站的盗版小说页实例参考:示例内容质量说明

优采云 发布时间: 2021-04-27 04:15

  采集知名小说网站的盗版小说页实例参考:示例内容质量说明

  •采集著名小说网站的盗版小说页面。

  参考示例:

  示例

  内容质量

  说明

  案例3. 1. 2-1

  中等

  网易直接转载了来自中国新闻网的新闻。

  案例3. 1. 2-2

  中等

  网民在图书馆上传的“国庆假期安排”新闻

  案例3. 1. 2-3

  中等

  采集盗版小说网的小说网站

  案例3. 1. 2-4

  中等

  *敏*感*词*中的普通帖子

  3、在百度搜索引擎上的内容质量较差:

  百度搜索引擎认为,主要内容的内容是较少的信息,或者没有有效的信息,或者该信息已过时。所有页面都是内容质量较差的页面,不会为用户提供任何实质性帮助,因此应减少其显示的机会。同时,如果此类网页在网站中所占的比例过大,也会影响百度搜索引擎对该网站的评级,尤其是UGC 网站,电子商务网站,黄页网站。 ,无效网页的管理。

  例如:

  •已从货架上移除的产品页面或已过期的团购页面;

  •招聘和交易页面已过期;

  •资源已过期,例如视频已删除,下载后无法使用软件等。

  4、没有百度搜索引擎的内容质量:

  根本没有内容质量的网页是那些生产成本低,伪劣的网页;在线采集中的内容无需进行最少的编辑就可以在线放置;悬挂*敏*感*词*木马和其他病毒;收录作弊或意图;根本无法满足用户需求甚至收录欺骗性内容的网页。

  例如:

  •内容简短且空白,内容很少,但不能支持页面的主要意图;

  •问答页面上有问题,没有答案,或者答案根本无法解决问题;

  •现场搜索结果页面,但未提供相关信息

  除了上述网页外,欺骗用户和搜索引擎的网页在没有内容质量的情况下也占了馆藏的很大一部分。百度搜索引擎作弊网页的定义是:不满足用户需求,通过不正当手段欺骗用户和搜索引擎的网页,以牟取暴利。目前,Internet上的这部分网页数量仍然很少,但作弊网页的价值是负面的,对用户非常有害。搜索引擎采取坚决态度打击此类网页。

  网站百度搜索引擎的浏览体验维度,用于衡量网站页面质量

  不同质量的网页的浏览体验会有很大的差距。高质量网页的浏览体验应该是积极的。用户希望看到干净且易于阅读的网页。混乱的版面和过多的广告将影响用户对网页主要内容的访问。在百度搜索引擎网页质量体系中,网页主要内容的用户获取成本与浏览体验成反比,即获取成本越高,浏览体验越低。面对具有相似内容质量的网页,浏览体验更好的网页更有可能获得更高的排名。对于浏览体验较差的网页,百度搜索引擎会根据情况降低其呈现的可能性,甚至拒绝它们的出现收录。

  有很多因素会影响用户浏览体验的质量。目前,百度搜索引擎主要从内容布局和广告影响两个方面来考虑网页:

  内容布局:

  用户进入网页时首先看到的是内容布局。布局确定了用户对网页的第一印象,还确定了用户获取内容的成本。

  广告影响力:

  百度搜索引擎了解到网站的生存和发展需要资金支持,并支持在网页上放置合法广告。网页应满足用户的需求为主要目的,最佳状态是“主要内容和广告以内容为主体,以广告为补充,同时满足用户的需求”,广告不应成为页面的主体。

  让我们通过一个例子来了解百度的搜索引擎如何对网页的浏览体验进行分类。基于此,网站管理员可以比较和测试他们自己网站的浏览体验:

  1、在百度搜索引擎上拥有良好的浏览体验:

  页面布局合理,用户获取主要内容的成本较低。通常,它具有以下特征:

  •布局合理,布局美观,易于阅读和浏览;

  •用户所需的内容在页面上占据最重要的位置;

  •通过页面标签或页面布局可以清楚地区分哪些广告;

  •广告并不抢占主要内容的位置,也不妨碍用户获取主要内容;

  参考示例:

  示例

  浏览体验

  说明

  案例3. 2. 1-1

  好

  招聘,房地产等。网站主页上也有很多广告,但它们都与招聘有关。浏览体验还可以。

  案例3. 2. 1-2

  好

  文章页面,页面布局合理,没有广告,布局良好,结构合理

  案例3. 2. 1-3

  好

  游戏首页,布局精美,布局合理,没有广告,出色的浏览体验

  2、百度搜索引擎上的浏览体验不佳:

  页面布局和广告放置会影响用户对主要内容的访问,增加了用户访问信息的成本,并使用户感到反感。包括但不限于以下情况:

  •身体内容不会包裹或折断,这使用户难以阅读;

  •字体和背景颜色相似,因此难以区分内容;

  •页面布局不合理,在页面的第一个屏幕上看不到有价值的主要内容;

  •广告屏蔽了主要内容;或在一般分辨率下,第一个屏幕上满是广告,并且主要内容不可见;

  •弹出广告过多;

  •太多影响阅读的浮动广告

  •单击链接时,出现意外的弹出窗口;

  •广告和内容混乱,难以区分;

  衡量网页质量的百度搜索引擎的可访问性维度

  用户希望从搜索引擎中快速获取所需信息。百度搜索引擎试图为用户提供可以直接直接获得所有信息的Web结果。百度搜索引擎认为,无法直接获取主要内容的网页对用户不友好,并会根据情况调整其显示概率。

  百度搜索引擎将从三个方面来判断网页的可访问性:正常打开,权限限制和有效性。对于可以正常访问的网页,它可以参与正常排序;对于具有权限限制的网页,可以通过其他维度进行查看。观察;对于无效的网页,其展示机制将被降低甚至从数据库中删除。

  1、通常可访问的网页

  没有权限限制,可以直接访问所有主要内容网页。

  2、具有权限限制的网页

  网页有两种类型:打开权限和资源获取权限

  1)打开权限:

  它是指打开网页所需的登录权限。未经许可,将无法看到特定内容。普通用户无法获得它或获得它的成本很高。百度搜索引擎将降低其显示概率。不包括主要功能是登录的网页。

  2)资源访问权限:

  是指获取网页的主要内容,例如文档,软件,视频等,这些内容需要许可或需要安装插件才能获取完整的内容。此时将出现三种情况:

  •网站由于内容构建的高昂成本而提供高质量的真实内容,尽管需要获得许可或插件安装才能查看全文或下载,但这在用户的期望之内,并且百度搜索引擎不认为许可行为对用户有害。如果它造成危害,则将其与普通的可访问页面相同。

  •对于来自用户转载甚至机器的某些非高级,非正版资源采集,成本低,内容不是唯一的,并且用户对资源的访问受到限制-根据需要注册登录或付费查看,百度搜索引擎将根据具体情况决定是否调整其显示。

  •还有一些视频和下载资源页面。也许自己的资源质量还不错,但是您需要安装一个非常不受欢迎的插件才能正常访问。例如,如果您需要安装“ xx重磅*敏*感*词*播放器”,则百度搜索引擎会怀疑这是恶意趋势。

  参考示例:

  示例

  可访问性

  说明

  案例3. 2-1

  好

  有关CNKI的论文可以付费下载,但已获得版权,浏览体验也很好

  案例3. 2-2

  好

  优酷上的一部新电影,您需要付费才能观看,浏览体验也不错。

  案例3. 2-3

  中等

  内容已复制,但您需要登录才能查看更多

  案例3. 2-4

  差

  参加聚会本身的申请表已重印,并且在Internet上无处不在,但是此页面仍然需要付费才能下载。

  3、无效的网页

  它通常是指链接无效且主要资源无效的网页。百度搜索引擎认为,这些页面无法提供有价值的信息。如果网站上的此类页面太多,也会影响百度搜索引擎的收录和评级。建议网站管理员设置此类网页,及时登录百度网站管理员平台,并使用失效链接提交工具通知百度搜索引擎。

  失败的页面包括但不限于:

  •40 4、 40 3、 503和其他网页;

  •程序代码错误网页;

  •打开后,它提示内容已删除,或者因为内容不再存在而跳至主页;

  •论坛帖子中的内容已删除,视频页面已删除(大多出现在UGC网站上)

  Internet网络资源的现状

  CNNIC在2014年初发布的《中国互联网发展状况统计报告》中指出:截至2013年12月,中国的网页数据为1500亿,比2012年同期增长2 2. 2%。 2013年,每个网站的平均网页数量和每个页面的平均字节数均保持增长,这表明中国互联网上的内容更加丰富:网站的网页平均数量达到4. 690,000,比去年同期增长2. 3%。

  为了确保搜索质量并提高用户满意度,百度搜索引擎每周都会对网页质量进行一次示例评估。但是,根据过去一年的评估数据,我们发现高质量网页的绝对数量很小,几乎没有增加;普通网页的比例在下降,相应地,劣质网页的比例也大大增加。截至2014年5月,统计数据显示,在百度网络搜索发现的大量网页中,高质量网页仅占7. 4%,劣质网页高达21%,其余普通网页占7 1. 6%。

  

  百度网络搜索通过一系列的筛选,识别,分析和授权工作,努力为用户提供更多高质量的网页,每天涉及成千上万个质量不佳的网页网站。尽可能减少由于质量差的网页对用户造成的干扰。从2014年5月的网页显示分析数据来看,下图显示在当前显示在用户面前的网页质量分布中,高质量网页的比例为40%,劣质网页的比例降至11% -尽管这种变化已经非常明显,但百度网络搜索仍然希望与大多数网站管理员合作,以将质量较差的比例降低到更低的水平。

  Internet上的所有网页

  百度搜索中显示的网页

  高质量网页

  7. 4%

  41%

  普通网页

  7 1. 6%

  49%

  网页质量不佳

  21%

  11%

  上述质量较差的网页包括两个部分:低质量网页和垃圾邮件网页。下图显示了低质量网页问题的分布:

  从上图可以看出,目前低质量网页中最严重的问题是广告过多,占据网页的主要位置以及意外弹出窗口导致的不良浏览体验,其内容是简短,该网页需要获得资源的许可,而过时的信息也是劣质网页的重要组成部分。

  除低质量的网页外,下图显示了没有任何质量垃圾邮件页面的质量较差的网页的问题分布:

  

  从上图可以看出,目前低质量网页中最严重的问题是广告过多,占据网页的主要位置以及意外弹出窗口导致的不良浏览体验,其内容是简短,该网页需要获得资源的许可,而过时的信息也是劣质网页的重要组成部分。

  除低质量的网页外,下图显示了没有任何质量垃圾邮件页面的质量较差的网页的问题分布:

  

  无效链接对用户,网站和搜索引擎以及最大比例的垃圾邮件网页没有意义。第二种是欺骗对用户和搜索引擎有害的网页。无效的资源,未回答的问题以及不相关的搜索结果页面是浪费用户时间的网页。搜索引擎不想将其显示给用户。

  百度搜索引擎对网站站长的建议

  以上介绍了百度搜索引擎确定网页质量的标准。根据这些标准,网站管理员在实际工作中应遵循以下原则:

  •设计网页时的主要考虑因素是用户,而不是搜索引擎

  •始终将用户体验放在首位

  •根据用户需求创建内容

  •更多地考虑如何使网站的独特价值

  •长期关注,过多的广告弊大于利。

  •及时删除低质量的内容

  •请勿试图以任何方式欺骗用户和搜索引擎

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线