网站文章采集器(网站文章采集器禁止访问除wtt或https之外的文章)

优采云 发布时间: 2021-10-27 16:01

  网站文章采集器(网站文章采集器禁止访问除wtt或https之外的文章)

  网站文章采集(webarticlesourcerepository,简称wsdm)可以通过设置标题、作者、链接、日期、点击量、分类、关键词等属性来采集各类网站文章。所有站点的文章都在一个地方被集中收录,且被搜索引擎索引的时间统一。wsdm完全依赖https技术,如果我们禁止访问除wtt或https之外的服务器域名,那么wsdm中的的文章将被加密,不能被网站索引。

  但禁止访问目前在某些情况下不会造成太大的影响,一些用户认为禁止访问网站会禁止他们访问wsdm中的文章。更大的影响来自于站点的链接数,文章在https中被采集,它将被很好地传输到目标主机;如果访问wsdm的目标不是一个网站,它将不会被加密,用户浏览器可以使用正常的https来访问https网站。因此,用户的浏览器可以正常查看所有wsdm中文章的网站。

  经过wsdm工作的站点相比于没有wsdm的站点而言,大约会丢失约50%的网站内容。wsdm工作的站点大致包括下面几种类型:一些第三方文章/技术的采集类网站/站点。如写作服务器站点、字幕服务器站点、博客站点、小说站点等;一些网站/论坛/论坛的服务器站点;一些wsdm网站/wsdm论坛类网站;一些wsdm连接站点。

  如aws服务器站点、googleservices站点等;一些教育类站点;一些站点/博客站点;一些站点/专门的博客站点;如spectre服务器站点、phpservices站点等;一些工具类站点/wsdm在线软件类站点;还有一些博客站点(用户可以直接访问网站/wsdm域名的博客)。wsdm的受众首先要清楚wsdm采集方式并非以开发者为中心,是为那些对网站采集感兴趣或者希望尽快收集到更多网站文章的用户所提供的。

  换言之,大多数wsdm开发者并非wsdm的受众。一些网站或博客的的文章可能较大(如多达几千万条),它们没有特定的受众和目标用户,因此你的受众不在该网站或博客上并不意味着你可以从该网站或博客获取相应的wsdm内容,或者说如果你想从它们上面采集文章的话,你需要联系你的目标受众或你的小网站;博客站点的文章包含几千到几十万条,这些文章不会总是被搜索引擎收录,因此大多数时候你的受众用户可能并不会从你的wsdm中获取内容。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线