浏览器抓取网页(行动支援网页剪贴簿支援行动浏览器)
优采云 发布时间: 2021-11-01 15:02浏览器抓取网页(行动支援网页剪贴簿支援行动浏览器)
介绍:
WebScrapBook 可以忠实地检索网页内容,支持多种存储格式和自定义设置,可以对检索到的数据进行检索、组织、注释和编辑。此扩展程序继承自 ScrapBook X,后者是 Firefox 的传统附加组件。
特征:
1. 忠实抓取:浏览器显示的网页可以抓取存储,不丢失细节。一些重要的元数据,如来源网址和检索时间也如实记录。
2. 自定义抓取:网页剪贴簿可以抓取选定范围的网页,抓取网页的原创外观(无需页面脚本处理),或者抓取网页作为书签。您还可以自定义如何处理网页中的图片、音频、视频、字体、框架页、样式表、脚本等资源。网页可以保存为文件夹、ZIP 存档文件(HTZ 或 MAFF)或单个 HTML 文件。
3. 管理数据:您可以在浏览器的侧边栏中使用一个或多个剪贴簿,将检索到的网页以分层树状结构进行组织。每个剪贴簿都可以单独索引以供将来以各种方式搜索(可以组合全文关键词、标题、自定义评论、源 URL 和其他元信息搜索)。(*)
4. 编辑网页:可以在抓取前后对网页进行标记、注释或编辑。您还可以创建和管理 HTML 或 Markdown 格式的笔记页面。(*)
5. 远程访问:可以设置后端服务器来托管从其他机器读取或编辑的检索数据。您还可以为剪贴板创建静态索引,以便发布到不支持动态网页的服务器。(*)
6. 手机支持:网页剪贴簿支持手机浏览器,如Android版火狐和Kiwi Browser,可以在手机或平板电脑上抓取和编辑网页。
7. 传统ScrapBook 支持:可以将传统ScrapBook 或ScrapBook X 创建的剪贴簿转换为网络剪贴簿兼容格式。(*)
* 星号项的全部或部分功能需要与后端服务器配合使用。可以使用 PyWebScrapBook 设置后端服务器。
* HTZ 或MAFF 存档文件可以使用内置的存档网页查看器查看,使用PyWebScrapBook 或其他辅助工具打开,或解压打开门户页面进行查看。
看:
* 下载并安装 PyWebScrapBook:
* 进一步的解释和常见问题请参考这个总数:(zh_TW)
* 为了便于编译和更完整的双向讨论,如有问题请尽量向仓库反馈:
* 如果此工具对您有帮助,您可以捐款以支持我们:
版本:0.98.1 用户评分:0(满分 5 分) 此版本的下载量:17157
大小:409KiB 本版本最后更新时间:2021 年 2 月 12 日