抓取网页生成电子书(问题的话()设置网站RSS输出方式)

优采云 发布时间: 2022-03-10 07:18

  抓取网页生成电子书(问题的话()设置网站RSS输出方式)

  准备好 RSS 提要后,您可以在 Calibre 中添加它们。打开Calibre,在Calibre主界面顶部的功能图标中找到“抓取新闻”,点击右侧的向下箭头,在弹出的菜单中点击“添加自定义新闻源”。

  

  在弹出的对话框中,点击【新建配方】按钮,切换到“添加自定义新闻源”对话框。在“订阅列表标题”中输入一个名称,例如“我的订阅”(此名称是一个类别名称,将收录一组 RSS 提要地址)。

  “最老的文章”可以设置抓取文章的及时性。默认情况下,Calibre 只会在过去 7 天内抓取 文章。如果你想抢更多,你可以自定义更改天数。“每个源的最大 文章 秒数”设置要抓取的最大 文章 秒数。不过需要注意的是,这两个设置受限于网站 RSS的输出方式。比如有些网站的RSS只输出有限数量的最新的文章,所以无论在Caliber中如何设置都会受到这个限制,可能无法获取到指定的数量文章;

  接下来,我们需要在“将新闻添加到订阅”中添加我们想要保留的 RSS 地址。在“Source Name”中输入RSS订阅的名称,如“Kindle Companion”;然后在“Source URL”中输入RSS地址,如“”;最后点击【添加来源】按钮,在“订阅列表中的新闻”中添加一个RSS订阅。在一个订阅列表中可以抓取多个RSS订阅,因此可以重复输入多个RSS订阅名称和来源网址并添加多次。

  

  添加RSS提要地址后。点击右下角的【保存】按钮保存并返回“添加自定义动态消息”界面。如需修改,可在左侧列表中选择一项,然后点击【编辑此配方】按钮进行修改。如果要修改它,请单击[删除此配方]按钮将其删除。如果没有问题,可以点击【关闭】按钮返回Calibre主界面。

  三、获取和推送

  设置好 Feed 后,您就可以抓取新闻了。同样,在Calibre主界面上方的功能图标中找到“抓取新闻”,点击,弹出“定期新闻下载”对话框。在左侧列表中找到“自定义”类别,点击展开,可以找到刚刚添加的订阅列表。选择好之后,点击界面下方的【立即下载】按钮,Calibre就会开始爬取RSS内容。

  

  抓取成功后,Calibre 会生成一本期刊格式的电子书,并自动存入图书馆。如果您设置了电子邮件推送,Calibre 还会自动将生成的电子书推送到云端,以便自动同步到您的 Kindle。

  

  当然,除了这种手动爬取方式,你还可以通过“定时下载”来定时爬取,比如每周、每月或者每隔指定天数爬取RSS内容,但前提是你要保持电脑开机,让您的计算机保持在线状态。

  另外需要注意的是,有些网站的RSS只输出摘要,所以Calibre只能抓取摘要内容;如果您订阅的 RSS 被屏蔽并且您的网络没有使用代理,则 Failed to crawl 成功。

  如果你需要抓取的网站没有提供RSS feed,可以参考《Calibre使用教程:抓取网站页面制作电子书》中文章提供的方法编写脚本直接抓取网站的页面内容,制作电子书。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线