心得:如何有效收集资料？大师送你 5 个建议 | 领客专栏 · 電腦玩物

优采云发布时间: 2022-11-24 09:23

　　要想有效地

" rel="nofollow" target="_blank">采集

数据，管理好自己的知识，我觉得有两个前提要掌握：“参与”和“长期”。任何人都有采集

数据的需求，比如采集

大量的新闻事件、评论、分析报告作为撰写新文章或策划的素材。比如学习手冲咖啡的学习者，需要采集

设备鉴赏、冲泡方法教学、自己的学习心得，方便自己的学习和复习。为了让采集

到的数据对以后有用，首先，我们“不能只采集

死数据”，而是让自己“参与数据”，包括：标注数据、突出重点、整合相关数据、并根据目的进行分类和分类等等。而且，对于知识工作者和学习者来说，采集

数据不应该是遇到它就想到的偶然行为，而是一种“长期习惯”。对于一个未来的需求，不断的采集

、内化、整理自己的数据库，这样当你遇到问题不知道的时候（需要写文章，需要教别人泡咖啡），可以马上使用它在你自己的数据库中查找信息来完成动作。这就是所谓的“有效采集

数据”，怎么做到的呢？以下是我作为一名长期知识工作者和学习者的建议，分享了一个对我个人有用的过程。1.如何建立自己的新闻源？首先，我会创建自己独特的信息源，并使这个信息通道自动化，每天向我传递可能需要的信息。而我可以在一个统一简洁的界面中处理和分发这些信息，而不会受到额外的干扰。这里最好的工具还是所谓的“RSS阅读器”。我使用 Feedly 服务来采集

与研究主题相关的博客和网站。当从这些来源发布新文章时，我可以在我的 Feedly 阅读器中浏览它们。我每天早上花大约 30 分钟快速筛选信息。白天如果有其他空闲时间，我也会打开Feedly看看，积累一下以后可能用到的各种资料。我一直不喜欢综合性的大媒体网站作为我的主要信息来源，因为那无异于让媒体决定我想看什么。我也不相信 Facebook 等社交媒体能为我提供垂直和深入的学科知识，我害怕社交媒体上的噪音太大。所以，我们必须自己做！因此，这个“个性化”和“自动化”的过程非常重要。我包括具有特殊主题的博客和网站，例如我自己的“电脑玩具”，它们主要是原创的，主要在我的 Feedly 中。这样我就可以每天自动收到他们更新的文章了。这是我的个性化报纸和自动数据库。我包括具有特殊主题的博客和网站，例如我自己的“电脑玩具”，它们主要是原创的，主要在我的 Feedly 中。这样我就可以每天自动收到他们更新的文章了。这是我的个性化报纸和自动数据库。我包括具有特殊主题的博客和网站，例如我自己的“电脑玩具”，它们主要是原创的，主要在我的 Feedly 中。这样我就可以每天自动收到他们更新的文章了。这是我的个性化报纸和自动数据库。

　　2、数据源如何保活？我根本不从社交媒体采集

资料吗？当然不是，我也看社交媒体，但那是我采集

信息的第二步。而为了“打破社交媒体泡沫”，我也会用谷歌搜索来辅助第三步。

" />

　　建立个性化自动化新闻频道：您自己的观点

　　使用社交媒体采集

更多信息：其他人的观点

　　使用搜索打破信息壁垒：世界视角

　　以上数据采集

三部曲缺一不可，我觉得他们的“使用顺序”很重要。我称之为“自己的观点、他人的观点、世界的观点”的三层展开。《我的观点》：利用Feedly等订阅工具，采集

你最认同的网站、最推崇和信任的信息来源，建立每天稳步扩展知识的渠道，让你与这些一起成长作者。这是建立自己的Viewpoint的步骤。“别人的看法”：但我们不能只局限于自己的看法。这时候，“社交媒体”确实是一种让信息保持活力的好方法。通过不断吸收和碰撞他人的意见，我们可以获得自己意见的更新。所以看social media，但是这里的social media不局限于facebook，比如我写blog跟大家讨论，也是征求别人意见的social media。《世界观》：但是朋友圈有朋友圈的局限性，国家和社会有国家和社会视野的局限性。要想看到更大世界的数据，找到反证数据，那就得依靠谷歌搜索，跳出你习惯的信息框架，去尝试寻找一个不一样的世界方向。我的习惯是，当我在Feedly上看到一些论据，或者在社交媒体上看到一些信息，我不会立即做出最终判断，但我会使用谷歌搜索来寻找更多，尤其是尝试搜索相反的Demonstration，让他们的视野更加开阔。3、如何过滤信息？在前面的方法中，我想我应该使用最好的方法来获取网络数据采集的来源。当然，我这里跳过了书中的数据通道。

　　说到读书，我觉得也可以从“自我”、“他人”、“世界”三个角度来思考如何选择自己想读的书。但仅有信息源还不够，下一步是如何高效、优质地采集

信息？面对海量的信息，我会掌握以下处理原则。首先，80%的信息可以跳过。即使是我自己采集

Feedly上的资料，我也可能会跳过80%，因为我不看。什么是不能跳过的信息？然后我要回去问问自己，我现在最关心的主题是什么？我在寻找什么样的信息？或者我们换个角度想想上网，我们是不是随便把它看成是休闲？或者既然你花同样多的时间上网，为什么不把时间花在有目的的阅读上呢？同样的时间，更多的价值，同样的乐趣。4.如何参与材料？当我看到一篇看似鼓舞人心的文章时，我会尽力立即看完这篇文章，因为这是最鼓舞人心的时候！而且最好能同时阅读、划重点、做笔记。这就是我一开始提到的“参与”。采集

信息最有价值的往往不是信息本身，而是你对这些信息的灵感、想象和延伸。所以你不记下来就太可惜了，下次你看这本书的时候肯定会忘得一干二净。就像我看书的时候，我也在阅读时做笔记。这些笔记其实比书还珍贵。而这也是我喜欢使用 Evernote 的原因，它可以让我在做笔记的同时阅读任何在线资料，并最终快速保存它们。更多可以在这里看到。

" />

　　5. 为什么要优先采集

创意？为什么要建立快捷有效的信息渠道？我们为什么采集

信息？虽然有些信息确实是信息量大的，比如某个人说过的话，这样那样的事件数据，但还有更多的资料其实是为了“激发自己的思想”。从这个角度来看，我应该看哪些信息？我应该读什么书？我应该采集

哪些数据？这将使您有更大的机会建立有效的数据库。

　　因为比起资料采集

的完整性，我更应该追求自己思想笔记的完整性。但是，大部分没有思想的信息，采集

久了就没有用了，反而会给数据库造成负担。

　　免费的:优采云

" rel="nofollow" target="_blank">采集器免费版下载

　　优采云

Collector 是一个可视化的网络内容采集

工具。用户可以自由配置采集内容、对象、输出方式等信息。软件可自动生成相关功能，快速采集

您需要的内容。不要错过，立即下载！

　　软件介绍

　　新一代浏览器智能采集

全新上线！

　　可视化内容配置，一键指定抓取目标，为优采云

定制，简单到不能再简单！

　　软件特色

　　零门槛

　　不懂网络爬虫技术，会上网，会采集

网站数据

　　多引擎，高速稳定

　　内置的高速浏览器引擎也可以切换到HTTP引擎模式，更高效地采集

数据。还有一个内置的 JSON 引擎，无需分析 JSON 数据结构和可视化选择 JSON 内容。

　　适用于各种网站

　　它可以采集

互联网上99%的网站，包括单页应用Ajax加载和其他动态类型的网站。

　　产品优势

　　视觉向导

　　所有采集要素，自动生成采集数据

　　计划任务

　　运行时间灵活定义，全自动运行

" />

　　多引擎支持

　　支持多种采集引擎，内置高速浏览器内核、HTTP引擎和JSON引擎

　　智能识别

　　可以自动识别网页列表、采集

字段和分页等。

　　拦截请求

　　自定义屏蔽域名，方便过滤站外广告，提高采集速度

　　各种数据导出

　　可以导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站等。

0

2022-11-24

网站文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

心得:如何有效收集资料？大师送你 5 个建议 | 领客专栏 · 電腦玩物

0 个评论

发起人