浏览器抓取网页(行动支援网页剪贴簿支援行动浏览器)

优采云发布时间: 2021-11-01 15:02

　　介绍：

　　WebScrapBook 可以忠实地检索网页内容，支持多种存储格式和自定义设置，可以对检索到的数据进行检索、组织、注释和编辑。此扩展程序继承自 ScrapBook X，后者是 Firefox 的传统附加组件。

　　特征：

　　1. 忠实抓取：浏览器显示的网页可以抓取存储，不丢失细节。一些重要的元数据，如来源网址和检索时间也如实记录。

　　2. 自定义抓取：网页剪贴簿可以抓取选定范围的网页，抓取网页的原创外观（无需页面脚本处理），或者抓取网页作为书签。您还可以自定义如何处理网页中的图片、音频、视频、字体、框架页、样式表、脚本等资源。网页可以保存为文件夹、ZIP 存档文件（HTZ 或 MAFF）或单个 HTML 文件。

　　3. 管理数据：您可以在浏览器的侧边栏中使用一个或多个剪贴簿，将检索到的网页以分层树状结构进行组织。每个剪贴簿都可以单独索引以供将来以各种方式搜索（可以组合全文关键词、标题、自定义评论、源 URL 和其他元信息搜索）。(*)

　　4. 编辑网页：可以在抓取前后对网页进行标记、注释或编辑。您还可以创建和管理 HTML 或 Markdown 格式的笔记页面。(*)

　　5. 远程访问：可以设置后端服务器来托管从其他机器读取或编辑的检索数据。您还可以为剪贴板创建静态索引，以便发布到不支持动态网页的服务器。(*)

　　6. 手机支持：网页剪贴簿支持手机浏览器，如Android版火狐和Kiwi Browser，可以在手机或平板电脑上抓取和编辑网页。

　　7. 传统ScrapBook 支持：可以将传统ScrapBook 或ScrapBook X 创建的剪贴簿转换为网络剪贴簿兼容格式。(*)

　　* 星号项的全部或部分功能需要与后端服务器配合使用。可以使用 PyWebScrapBook 设置后端服务器。

　　* HTZ 或MAFF 存档文件可以使用内置的存档网页查看器查看，使用PyWebScrapBook 或其他辅助工具打开，或解压打开门户页面进行查看。

　　看：

　　* 下载并安装 PyWebScrapBook：

　　* 进一步的解释和常见问题请参考这个总数：(zh_TW)

　　* 为了便于编译和更完整的双向讨论，如有问题请尽量向仓库反馈：

　　* 如果此工具对您有帮助，您可以捐款以支持我们：

　　版本：0.98.1 用户评分：0（满分 5 分）此版本的下载量：17157

　　大小：409KiB 本版本最后更新时间：2021 年 2 月 12 日

0

2021-11-01

浏览器抓取网页

0 个评论

要回复文章请先登录或注册