心得:如何有效收集资料?大师送你 5 个建议 | 领客专栏 · 電腦玩物
优采云 发布时间: 2022-11-24 09:23心得:如何有效收集资料?大师送你 5 个建议 | 领客专栏 · 電腦玩物
要想有效地采集
数据,管理好自己的知识,我觉得有两个前提要掌握:“参与”和“长期”。任何人都有采集
数据的需求,比如采集
大量的新闻事件、评论、分析报告作为撰写新文章或策划的素材。比如学习手冲咖啡的学习者,需要采集
设备鉴赏、冲泡方法教学、自己的学习心得,方便自己的学习和复习。为了让采集
到的数据对以后有用,首先,我们“不能只采集
死数据”,而是让自己“参与数据”,包括:标注数据、突出重点、整合相关数据、并根据目的进行分类和分类等等。而且,对于知识工作者和学习者来说,采集
数据不应该是遇到它就想到的偶然行为,而是一种“长期习惯”。对于一个未来的需求,不断的采集
、内化、整理自己的数据库,这样当你遇到问题不知道的时候(需要写文章,需要教别人泡咖啡),可以马上使用它在你自己的数据库中查找信息来完成动作。这就是所谓的“有效采集
数据”,怎么做到的呢?以下是我作为一名长期知识工作者和学习者的建议,分享了一个对我个人有用的过程。1.如何建立自己的新闻源?首先,我会创建自己独特的信息源,并使这个信息通道自动化,每天向我传递可能需要的信息。而我可以在一个统一简洁的界面中处理和分发这些信息,而不会受到额外的干扰。这里最好的工具还是所谓的“RSS阅读器”。我使用 Feedly 服务来采集
与研究主题相关的博客和网站。当从这些来源发布新文章时,我可以在我的 Feedly 阅读器中浏览它们。我每天早上花大约 30 分钟快速筛选信息。白天如果有其他空闲时间,我也会打开Feedly看看,积累一下以后可能用到的各种资料。我一直不喜欢综合性的大媒体网站作为我的主要信息来源,因为那无异于让媒体决定我想看什么。我也不相信 Facebook 等社交媒体能为我提供垂直和深入的学科知识,我害怕社交媒体上的噪音太大。所以,我们必须自己做!因此,这个“个性化”和“自动化”的过程非常重要。我包括具有特殊主题的博客和网站,例如我自己的“电脑玩具”,它们主要是原创的,主要在我的 Feedly 中。这样我就可以每天自动收到他们更新的文章了。这是我的个性化报纸和自动数据库。我包括具有特殊主题的博客和网站,例如我自己的“电脑玩具”,它们主要是原创的,主要在我的 Feedly 中。这样我就可以每天自动收到他们更新的文章了。这是我的个性化报纸和自动数据库。我包括具有特殊主题的博客和网站,例如我自己的“电脑玩具”,它们主要是原创的,主要在我的 Feedly 中。这样我就可以每天自动收到他们更新的文章了。这是我的个性化报纸和自动数据库。
2、数据源如何保活?我根本不从社交媒体采集
资料吗?当然不是,我也看社交媒体,但那是我采集
信息的第二步。而为了“打破社交媒体泡沫”,我也会用谷歌搜索来辅助第三步。
" />
建立个性化自动化新闻频道:您自己的观点
使用社交媒体采集
更多信息:其他人的观点
使用搜索打破信息壁垒:世界视角
以上数据采集
三部曲缺一不可,我觉得他们的“使用顺序”很重要。我称之为“自己的观点、他人的观点、世界的观点”的三层展开。《我的观点》:利用Feedly等订阅工具,采集
你最认同的网站、最推崇和信任的信息来源,建立每天稳步扩展知识的渠道,让你与这些一起成长作者。这是建立自己的Viewpoint的步骤。“别人的看法”:但我们不能只局限于自己的看法。这时候,“社交媒体”确实是一种让信息保持活力的好方法。通过不断吸收和碰撞他人的意见,我们可以获得自己意见的更新。所以看social media,但是这里的social media不局限于facebook,比如我写blog跟大家讨论,也是征求别人意见的social media。《世界观》:但是朋友圈有朋友圈的局限性,国家和社会有国家和社会视野的局限性。要想看到更大世界的数据,找到反证数据,那就得依靠谷歌搜索,跳出你习惯的信息框架,去尝试寻找一个不一样的世界方向。我的习惯是,当我在Feedly上看到一些论据,或者在社交媒体上看到一些信息,我不会立即做出最终判断,但我会使用谷歌搜索来寻找更多,尤其是尝试搜索相反的Demonstration,让他们的视野更加开阔。3、如何过滤信息?在前面的方法中,我想我应该使用最好的方法来获取网络数据采集的来源。当然,我这里跳过了书中的数据通道。
说到读书,我觉得也可以从“自我”、“他人”、“世界”三个角度来思考如何选择自己想读的书。但仅有信息源还不够,下一步是如何高效、优质地采集
信息?面对海量的信息,我会掌握以下处理原则。首先,80%的信息可以跳过。即使是我自己采集
Feedly上的资料,我也可能会跳过80%,因为我不看。什么是不能跳过的信息?然后我要回去问问自己,我现在最关心的主题是什么?我在寻找什么样的信息?或者我们换个角度想想上网,我们是不是随便把它看成是休闲?或者既然你花同样多的时间上网,为什么不把时间花在有目的的阅读上呢?同样的时间,更多的价值,同样的乐趣。4.如何参与材料?当我看到一篇看似鼓舞人心的文章时,我会尽力立即看完这篇文章,因为这是最鼓舞人心的时候!而且最好能同时阅读、划重点、做笔记。这就是我一开始提到的“参与”。采集
信息最有价值的往往不是信息本身,而是你对这些信息的灵感、想象和延伸。所以你不记下来就太可惜了,下次你看这本书的时候肯定会忘得一干二净。就像我看书的时候,我也在阅读时做笔记。这些笔记其实比书还珍贵。而这也是我喜欢使用 Evernote 的原因,它可以让我在做笔记的同时阅读任何在线资料,并最终快速保存它们。更多可以在这里看到。
" />
5. 为什么要优先采集
创意?为什么要建立快捷有效的信息渠道?我们为什么采集
信息?虽然有些信息确实是信息量大的,比如某个人说过的话,这样那样的事件数据,但还有更多的资料其实是为了“激发自己的思想”。从这个角度来看,我应该看哪些信息?我应该读什么书?我应该采集
哪些数据?这将使您有更大的机会建立有效的数据库。
因为比起资料采集
的完整性,我更应该追求自己思想笔记的完整性。但是,大部分没有思想的信息,采集
久了就没有用了,反而会给数据库造成负担。
免费的:优采云
采集器免费版下载
优采云
Collector 是一个可视化的网络内容采集
工具。用户可以自由配置采集内容、对象、输出方式等信息。软件可自动生成相关功能,快速采集
您需要的内容。不要错过,立即下载!
软件介绍
新一代浏览器智能采集
全新上线!
可视化内容配置,一键指定抓取目标,为优采云
定制,简单到不能再简单!
软件特色
零门槛
不懂网络爬虫技术,会上网,会采集
网站数据
多引擎,高速稳定
内置的高速浏览器引擎也可以切换到HTTP引擎模式,更高效地采集
数据。还有一个内置的 JSON 引擎,无需分析 JSON 数据结构和可视化选择 JSON 内容。
适用于各种网站
它可以采集
互联网上99%的网站,包括单页应用Ajax加载和其他动态类型的网站。
产品优势
视觉向导
所有采集要素,自动生成采集数据
计划任务
运行时间灵活定义,全自动运行
" />
多引擎支持
支持多种采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎
智能识别
可以自动识别网页列表、采集
字段和分页等。
拦截请求
自定义屏蔽域名,方便过滤站外广告,提高采集速度
各种数据导出
可以导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站等。