chrome插件网页抓取(谷歌统计全世界文献管理工具zotero,辅助你从一个领域那么多 )
优采云 发布时间: 2022-01-21 02:15chrome插件网页抓取(谷歌统计全世界文献管理工具zotero,辅助你从一个领域那么多
)
据谷歌统计,目前全球有129,864,880本书。按汉语学科分类,三级学科约6000个。使用专家采集的平均数量,一个主题大约有 21,644 本书可供选择。如果不选择书籍和章节,一个人每天读一本书需要六年左右,无论是时间还是精力,这显然是不可能的。
但是,我们知道,有很多精英可以同时涉足多个领域,并在多个领域有所建树。有句话说,你与精英的距离,就是你与“优质信息”的距离。今天我用一个概念和一个工具帮助你弥合信息鸿沟。
一、最低限度的全球意识
我们不能成为某个领域的专家,但至少我们可以获得最低限度的全球了解。David Perkins在《全球学习法》中提出了全球认知的概念,掌握一个领域100%的知识就是全球认知,成为专家。掌握一个领域10%的核心知识,是最低的全球意识,成为业余专家。
今天给大家介绍一款文档管理工具zotero,帮助大家挑选一个领域核心的10%书籍,通过阅读达到最低的全局意识。
二、zotero 安装
Zotero 是一个浏览器插件和一个集成的参考管理软件。它最大的优点是可以直接爬取网络文献数据库网页中的参考书目。软件准备:建议使用谷歌浏览器,在谷歌浏览器中安装zotero插件,本地安装zotero客户端。
安装插件有两种方式:一种是下载插件,添加到浏览器的扩展区(推荐);另一种是在线安装扩展。
第一种方法:下载插件
1、浏览器输入:;
2、搜索Zotero Connector,将压缩包下载到本地:
3、打开谷歌浏览器,右上角有三个小圆点,打开进入更多工具->扩展->打开“开发者模式”:
4、解压下载的压缩包ekhagklcjbdpajgpjgmbionohlpdbjgc,将zotero-connector.crx文件拖到浏览器面板,点击添加扩展,如下图:
5、插件添加成功后,右上角会出现一个类似文字的小图标,插件安装完成。
方法二,在线安装
从第一种安装方法的第3步,点击“Chrome Web Store”,打开插件市场,搜索“Zotero Connector”,点击安装,如下:
安装成功后,效果和第一种安装方法的第5步一样。
Tips:插件安装完成后,重启浏览器,打开豆瓣,zotero按钮会变成一个文件夹,提示可以抓书。如果是灰色的,需要重启电脑才能使插件生效。
安装客户端:
1、浏览器输入:默认为Windows版本,macOS和Linux可选,可根据操作系统选择下载。
2、安装过程:选择标准模式,默认安装C盘,选择自定义选择安装目录,这里选择自定义,修改目标文件夹:
3、安装完成,打开zotero客户端,编辑->首选项,同步->登录,设置同步配置,即可将页面抓取的文件同步到本地:
切换到高级,可以配置文件保存位置:
三、抢豆瓣图书资讯
豆瓣和知网是存储中文信息最全的两个地方。去豆瓣看书,去CNKI看文学。Zotero可以抓取豆瓣书籍和CNKI文献。现在以Java书籍为例,抓取豆瓣资料。
1、找到 bean 列。豆瓣的豆瓣是采集好东西的工具。如果你在网上看到喜欢的东西,不管是不是豆瓣的,都可以在自己的豆瓣里收到,以后很容易找到。你也可以关注你感兴趣的豆瓣。但是DouList目前不支持搜索,只能在默认推荐中自己找,就像大海捞针一样。有一种方法可以快速找到你感兴趣的doulist。在Google或者Bing上按照如下格式搜索:“搜索关键词site:/doulist/”,注意这个方法是百度、搜狗、360和其他搜索引擎 不适用。
例如搜索关于java的bean栏目,输入:java site:/doulist/
然后点击浏览一下,我一般是根据粉丝数+书评选择豆栏,在谷歌打开豆栏地址,如:
2、使用 zotero 获取图书信息。打开豆栏,右上角的小图标由灰色变为文件夹,点击文件夹,弹出选择器选择框,选择要抓取的书籍:
抓取过程如下图,书本颜色由灰色变为黑色,表示抓取完成。
温馨提示:如果没有安装zotero客户端,第一次抓取会出现如下提示,选择“启用保存到在线文档库”,每个免费用户有300M同步空间;
当在线空间用完无法保存爬取时,会一直显示保存到,如下图:
这种情况下,下载安装zotero客户端即可解决。
四、分析信息
Zotero对结果进行爬取,并将作者、摘要、出版商等信息作为元数据展示出来,如下:
1、基于zotero构建最小全局认知
Zotero爬取不会获取每本书的目录,所以第一步,我们需要到豆瓣手动复制目录并保存到excel中用于抓取的书籍;第二步是统计模块中的相似章节。例如,如果你想对 Java 编程有一个最低限度的全球了解,这里有 24 本书关于 Java。比如选择Java解谜、Java编程思想(第4版)、Java核心技术第一卷:基础知识(原书第9版)、Java核心技术(卷2):高级特性(第9版)原书的),点击参考书目连接豆瓣页面,将目录存储在excel中,为了方便查看图片,隐藏了一些子目录,如下:
红色标注的项目按照章节频率进行合并,可以分为几个模块:对象与类、控件执行、初始化与销毁、多线程、异常、泛型与反射、集合与数组。有了这个结果,你就可以知道这门学科的核心知识是什么,通过深入学习这些模块并掌握相应的知识,你就能对java编程有一个最低限度的整体了解。
2、基于zotero的比较阅读
Zotero 有一个强大的功能——高级搜索。它是一个全局搜索功能,搜索条件可以基于笔记、标签、作者、出版商等。
例如,有 24 本关于 java 的书籍。我想找一份关于java异常处理的资料。全局搜索快速定位到三个收录java异常处理的注释。然后我拿出这三本书,找到异常处理的章节。,同时相对阅读,而不是一次从头到尾阅读一本书。本书的每个版本都与作者的背景和喜好相关,可以横向阅读,通过不同作者对同一知识的不同解释加深理解和认知。
3、只读作者实力篇
对于复杂的学科,没有人能成为所有领域的专家。作者可能对某个模块有深入的研究,但是一本书涵盖了整个领域,所以全书的核心内容可能只有10%是他的优势篇。选择有优势的章节进行精读,第二章略过,强调精髓不要太多。
点击 zotero 中的参考书目可以快速查看右侧的摘要信息。通过查找该书对应的pdf文件并将其链接到书目作为注释,可以快速浏览一本书的序言、序言等。通过摘要、前言、前言、推荐、发表论文等方式确定作者的专长,从而确定作者的强篇,即核心篇。