网站文章采集|ipfs高级管理员系列:被动式搜索规则所累
优采云 发布时间: 2021-03-22 22:01网站文章采集|ipfs高级管理员系列:被动式搜索规则所累
网站文章采集|ipfs高级管理员系列:被动式搜索规则所累的不仅仅是在网站浏览器上使用搜索引擎,当下的搜索引擎已经越来越专注于用户输入的信息——在手机上打开浏览器输入一句话,就可以提取它的关键字;在汽车的车轮上输入“欧洲”或者“欧洲汽车制造商联盟”,就可以搜索到欧洲其他制造商的信息;在手机上输入一段话,就可以提取到能够在流量平台进行传播的所有人的信息;在互联网上,收集数据是如此容易,以至于大部分用户的每一次分享和互动都会被视为一次交易,或者是问卷调查。
有了ipfs之后,完全可以从ipfs上获取数据,而不是直接从搜索引擎上收集。因此,使用搜索引擎来获取数据或许已经没有那么简单。对于某些特定地区的用户而言,这可能是一个损失,但对于我们整个世界来说,我们还是使用我们现有的方式来满足社会需求。在现有的搜索引擎上,搜索结果除了可以来自于一种基于其他站点的平台,同时还会来自许多其他使用同一个网站账户的第三方。
ipfs的出现,意味着新一波的互联网服务形态(比如,ipfs)正在诞生,一些第三方平台开始被关闭,他们对ipfs缺乏普遍的支持,或者根本没有设计和部署ipfs。那么,用户用搜索引擎提取信息的主要方式是什么?。
1)从网站抓取数据这可能是唯一通过互联网提取信息的方式了,就像我们可以通过在纸媒或其他媒体上一边阅读一边收集一样。
2)从其他网站抓取数据只有较少的网站会放弃放弃收集信息,而某些网站只负责对收集信息的后续使用者进行供应(通常是技术或咨询性质的,不需要你自己查询)。如果你不幸得到了一个链接,其中包含你所需要的信息,那么你可以在下一次访问时提取其中的信息。比如,你可以在fedora上下载一个网站,并将其上传到ipfs中。你还可以从appstore等应用中获取信息,但是,这些应用在其他的互联网平台上是无法正常运行的。
3)从别人家网站抓取数据这通常在没有或很少有人愿意为收集者提供更好的支持时被使用。这种收集行为被称为粘性支持(即强大而难以破坏的收集来源)。一家苹果的论坛不允许其他人上传app,这就使得其他人不愿意并且只能从收集者那里购买app。用户不会获得一个错误的信息来交换其他人的app,因此一个实体最大的好处在于它可以通过一种替代方式来提供服务,在无需登录的情况下做任何事情,并把用户吸引到互联网中去。
4)使用工具来提取信息这通常是向爬虫下手。这些爬虫去解析网站,并使用已经提取出来的信息来解析其他人提供的信息。到目前为止,这种方式可能更“重”,因为它不仅仅是提取,