抓取网页新闻(有人:懒癌恨不得说翻船就翻船3最重要的是RSS)
优采云 发布时间: 2022-04-13 20:36抓取网页新闻(有人:懒癌恨不得说翻船就翻船3最重要的是RSS)
我的一天曾经从手机Zaker客户端开始,到十多个微信公众号,到微博,再到公司刷虎嗅、腾讯新闻、行业新闻,再到知乎日报. 这一切都是为了回答:今天有什么新鲜事?我也下载了新浪新闻客户端和新浪博客客户端,后来发现实在是没时间考虑。
为了不被骚扰,所有媒体应用的提醒都被关闭了。但时不时地,我仍在努力在各种 网站 和应用程序之间切换。
终于有一天我忍不住了,决定回到RSS。RSS简介 有人说RSS已经出很久了。毕竟有攫取内容平台流量的嫌疑,但有人说RSS符合去中心化的趋势,未来靠一个或几个平台获取足够的信息是不可能的。其实观点并不重要,重要的是像我这样的懒癌患者,恨不得把信息直接破解,用勺子送到嘴边。
内容平台有多种形式:网站、博客、微博、微信公众号、订阅平台等,而RSS一般有全文和摘要两种形式。各平台与RSS的关系如下:
1 网站,博客:可能有RSS,也可能没有,大部分是摘要RSS,少数有全文RSS。
2 微博、微信公众号:无RSS。
3 Zaker/Fresh Fruit等订阅平台:都是新闻聚合平台,与RSS竞争。
我的目标只有一个——将它们全部变成全文 RSS,在阅读器中一键阅读即可。但…
首先,找到合适的读者
如果你想要一个完美的链接集合,你怎么能没有一个完美的RSS阅读器,如果你想找到一个合适的阅读器,明确你的需求是很重要的。例如,我对读者有以下期望:
1 兼容iphone/ipad/windows,即有IOS APP和Windows网页版(如果你是安卓用户,可能还有其他选择)
2 体验好,速度快,不像谷歌读者说的翻船
3 最重要的是你不会在公司里被围墙,你会明白的(如果你没有这个烦恼,那就有更多的选择)
以下是主流读者的简单对比,言辞仅供参考。
里德
这是一款广受好评的阅读器,包括完美的 UI 和体验、快速的同步速度,以及链接其他网络 RSS 帐户而无需迁移的麻烦。亲身经历,无法替代。但是这个阅读器也有两个明显的缺陷:1)是收费的,每次升级都要重新付费。更可惜的是Iphone/Ipad和Mac的版本不同,要单独购买……当然版本更新频率不高,我的Iphone/Ipad2.0已经用了半年多没有升级,而且运行良好。其实也就几十块钱,而且收费服务更稳定可靠,更不用说值得拥有了。2)只支持IOS,没有网页版。使用安卓的同学只能通过;上班不能老是刷手机,还是要有网页版的。好在除了添加本地RSS feed,还支持添加Feedly、Inoreader、Feedbin、Old Reader、Readability等众多网络RSS,只需添加一个账号,即可轻松同步。当然,这也限制了你对网络RSS阅读器的选择,比如中国的中文版。
添加帐户后,您可以简单地设置并使用它,非常方便。
饲料
有IOS和Windows版本,推荐的也不少。但是iphone APP和web的速度却出奇的慢,内容不能经常刷新。也许服务器没有放置在正确的位置。也许付费版的速度会有所提高。应该是免费版的瓶颈。网上也有很多抱怨稳定性不好,直接出手。
阅读器
Inoreader 在各个方面都是理想的选择。免费功能齐全,部分重功能收费;支持多种系统,无需购买reeder;内置搜索功能非常强大,甚至可以直接搜索微信公众号的Feed;支持Pocket/Instapaper等网络采集夹;集成可读性摘要可转换为全文输出;分享评论的社交功能比较完善,完美支持中文界面。有一次我选择了它作为我理想的读者,结果……它被公司围起来了!!刷了N次,只得到了502 Bad Gateway,于是我含着泪转向了《老读者》。
老读者
与Inoreader相比,The Old Reader就像它的名字一样,有一种被时代淘汰的感觉。首先,没有APP版本;速度不快,切换一个源一般需要3秒,付费版没有明显提升;寻源功能不够强大;中文界面的翻译很血腥,名字也很老。
但它也有它最大的优点:没有致命的缺陷,支持Reeder,公司没有墙,UI比Inoreader清爽好用,属于稳扎稳打,没有过错就是成功。据说其创始人是前谷歌员工。因用户量过大关闭,2013年私有化后重新开放。付费版去除广告,增加订阅量,节省时间,支持分享到更多社交平台如印象笔记、Google+、Linkedin等,甚至自定义分享平台,支持同步星星文章到Instapaer /Readability/Pocket Internet 采集 Reader... 不过付费版还是不够快,广告也不突兀,所以我付了2个月并免费退货。总而言之,到目前为止,我对它很满意。
其他读者
这里有一些更常见的读者,以及为什么要放弃它们。
FeedDemon 是一个广受推崇的阅读器,但只是本地离线版本,在 2013 年停止更新。
仙果阅读器是国内唯一尝试过的阅读器,但由于与仙果平台的竞争已经结束,国内创业能否创收毕竟是一个重要的考虑因素。,只有一声叹息。
BazQux,据说最大的优势就是速度,首页有详细介绍,因为公司没有深入研究。
Minimal Reader,因为有Reeder的支持,我也试了一下。注册后发现“你面前有182个人在等他们的免费账号”,即使要排队,我也是醉了。
还有一些其他的推荐阅读器,有兴趣的可以货比三家,一一试用。Newsblur、AOL阅读器中文版
稍后阅读
说到 RSS 阅读器,我们就不得不谈到 Read it later。
相信很多人都用过微信或者QQ的“采集”功能,也就是在浏览网页的过程中,发现了一篇好文章,想要采集或者以后再看。这时候采集功能就派上用场了。在线馆藏阅读器应运而生,致力于跳出系统和应用的限制,支持尽可能多的馆藏场景。
最常用的此类阅读器是 Readability、Pocket 和 Instapaper。附上简单对比
就免费版的个人体验而言,Instapaper的抓取功能确实是最强大的,Pocket的APP版体验最好,Readability同步速度慢,更何况UI不好用,但最大的优势是Reeder支持——也意味着你不用打开Readability app就可以轻松在Reeder中阅读,这是懒癌界的良心。
关于抓拍功能,我不得不多说几句。将源文本的格式、图片甚至视频完美地捕捉到在线采集阅读器中,几乎是一项不可能完成的任务。三个应用程序的对比表明,源文本的阅读体验是不可替代的。所以我想这种类型的阅读器是用来存储链接的,实际阅读的时候还是跳转到源页面比较好。
原文的布局是这样的,附上一张GIF:
三个应用爬取的效果如下:
可以看出,只有 Instapaper 捕获了 GIF。不幸的是,下面的许多图片都没有成功捕获。只有图像框在那里颤抖。
根据以上经验,我选择了“Reeder for IOS 关联Readability 和The Old Reader,The Old Reader for Windows”的组合,基本涵盖了日常阅读需求(其实经常有积压的未读),我不再需要采集一堆网址下载一堆应用程序。
那么,如何全文订阅新闻、文章和不同平台的新闻呢?了解如何使用 RSS 订阅所有内容(如下)。
工人要做好工作,首先要磨利他的工具。在上一篇介绍了读者的选择之后,有了锋利的工具,就可以给猪和羊磨刀了。
各类网站提供的信息来源不同,需要分门别类处理。
1 行业良心,有全文RSS输出。比如知乎日报、尴尬事百科、大多数博客。
2心机门户,只提供点击率的RSS汇总。比如腾讯新闻、新浪新闻。
3 小部件平台不提供 RSS 链接。比如微信、微博、简书(会不会和谐?)。
直接添加RSS提要
对于不需要全文输出的第一类和第二类,一个快速的方法是在度娘上搜索“网站name RSS”,大部分都可以快速找到RSS源地址并添加地址可以使用订阅设备。
另一种方法是在 网站 上查找 RSS 图标或订阅链接。比如新浪个人博客首页有“订阅”链接,点击复制地址即可。
另一种方法是使用阅读器的内置搜索引擎。比如前文提到的Inoreader内置的搜索引擎非常强大,而Old Reader只是一般。
如果以上这些还不够,那就提供专业的 RSS 搜索引擎:. 这是google下的一个专业的RSS搜索引擎,但是经常不可用,所以不推荐。
RSS 摘要到全文输出
对于只提供RSS摘要的网站来说,每次看文章文章都要跳转网页也很烦人。如果有一个工具可以将摘要转化为全文,那将是一大幸事。有很多这样的在线工具。下面两篇文章文章对它们进行了非常详细的描述,这里不再赘述。使用方法也很简单,将抽象的RSS地址粘贴到转换网站的输入框中,等待它生成新地址并订阅。
获取RSS全文输出的五种方法
4+1 RSS 强制全文输出工具
但是需要注意的是,各个工具生成全文输出的能力和稳定性是不一样的。比如同样的 /RSS,FulltextRSSfeed 无法正常生成全文,而 Feedex 轻松无压力。总的来说,Feedex是最好的个人体验,而且没有抓图的压力,所以目前所有的摘要和全文都使用Feedex。当然,你不能指望完美的格式,只是够看。
友情提醒,备受推崇的雅虎管道已于 2015 年 8 月 30 日停止创建新管道,并将很快停止运营。从中吸取的教训是不要过度依赖在线工具并准备好寻找其他人。当然,还要感谢旧爱的无私奉献。
为网页生成 RSS 链接
本来还想骄傲的在微信、微博、简书等上写一篇文章“用RSS订阅一切”,但理想很充实,现实缺钙。之前找到的微信公众号爬虫是因为是国内高手。我自己搭建的服务器很快就变得不可持续,使用一段时间后就关闭了。所以,吹牛的头衔还在,但内容不是弄巧成拙——小姑娘是技术新手,无法自建,但代码在GitHub上公开,如果有人心血来潮想发福利,他们必须支持它。
微信没了,微博的希望还在:新浪微博转RSS。如果你是一个不刷微博、发鸡汤、不自拍就睡不着的重度用户,可以跳到下一段。如果因为微博的沉默,只想关注三五个具体的账号更新,只潜水不发帖,那你可以直接卸载微博,用RSS订阅这些账号,完美契合了洁的本质。这个在线工具使用起来也非常简单。搜索账号名,左下角会生成一个RSS地址。测试的排版没那么漂亮,但是抓图文字没问题,视频会转成链接。
那么,简书等其他网页或平台是如何生成RSS链接的呢?下面文章有一个简单的介绍。
为任何网页制作 RSS 提要的七个工具(其中第 6 个 Ponyfish 已关闭)
个人建议,可以用简单的一键生成工具(如Page2RSS、Feedity)试试看,但成功率不会太高,至少我用的订阅没用。如果这不起作用,请使用 FEED43 - 为没有提要的网页生成 RSS 提要。Feed43的原理是直接从网页的Html代码中截取你想要的部分生成RSS。对于不习惯代码的技术新手来说,还是要花点力气的。但是如果你真的想跟上更新的网页,比如短书的作者,某些特定网页的新闻等等,又不想经常登录网站,Feed43 是一个理想的选择选择。
应该注意的是,Feed43 捕获的结果可能只是摘要。我也试过用全文输出工具把摘要转成全文,但是成功率很低。稳定的更新是获得良好阅读体验的先决条件,所以我们只看总结。
最后是百度新闻关键词RSS订阅的介绍。如果你像我一样关注特定的关键词,比如行业、公司,甚至个人新闻,那么百度提供的关键词订阅是一个不错的选择。
百度RSS新闻订阅这里提供了详细教程,您可以轻松订阅关键词新闻、分类新闻和区域新闻。从使用前两者的经验来看,关键词搜索要看词的辨别程度,会出现很多重复或不相关的消息,但看一眼标题多半能完成判断,这还是有帮助的;和分类 新闻的报道比较完整。比如订阅《互联网焦点新闻》,基本可以覆盖每天各大媒体的热点。输出的链接是摘要,因为更新量大,看摘要会节省时间,所以没有尝试输出全文。
总结
什么是RSS?也不知道你看到这个,请收下我的膝盖,我真的不知道说什么,你可以问度娘。
为什么要使用 RSS?直接获取信息,聚合信息,减少各种应用的信息干扰,给你一个安静的世界。
如何订阅 RSS?找到跨平台、合适的订阅者或订阅者组合,添加所需的 RSS 提要,并使用不同的工具来实现定制。
有哪些好的 RSS 提要?这是见仁见智的问题,与个人兴趣和专业有关。你可以参考知乎:你的必读RSS提要有哪些?
希望以上信息对您有所帮助。
原文链接:作者:duduparaT