【工具】重要信息“404”怎么办？如何防止，如何挽回！

优采云发布时间: 2022-09-06 17:54

　　在日常生活中，你是不是经常会遇到想要访问的网页突然显示不存在或“404”，或是保存的重要的信息链接突然失效？

　　“昨天还能打开的，今天就没有了，早知道就存档了！”

　　其实，时效性是调查中很重要的一个因素，信息被搁置的时间越长，被污染、出现失真甚至完全消失的可能性就越大，即所谓的“信息损耗”，从信息传播过程的可变性可知，信息作为一种特殊的存在物，很容易在传播过程中出现损耗和丢失。

　　比如，小时候我们经常玩的游戏“传声筒”，若干人排成一列，组织者用耳语告诉排在最前面的人“情报”二字，让他以同样的方式传给第二人，第二人再传给第三人，……，传到第20个人时，他说出的结果可能就是“钱包”，或者“前辈”，而不是“情报”，这就是信息传递中的自然损耗和扭曲。

　　在互联网上的信息传播同样是如此。举个例子，通过下面这张某活动现场实时发布的照片，你知道这张照片是在哪里拍摄的吗？

　　图源：Twitter

　　我们已知照片的发布平台是 Twitter ，可以结合使用 Twitter 的实时更新、实时地理位置数据、OneMillionTweetMap、Snapchat Map 和 Facebook 主题标签等，快速地找到这个位置。

　　但事实上，这个方法在很大程度上依赖于来自社交媒体应用的短期实时数据。通过快速收集并保存数据，信息的损耗可以争取到最小化。

　　可如果我们是在三五个月后才开始这项调查的，结果会如何？

　　这种情况下，捕获实时数据可能已经没用了，Snapchat Map 镜头也早已消失，而 Facebook 搜索机制的变化也意味着很难找到这场游行的准确路线。

　　不仅如此，除了原始数据可能已不再可用，还可能会遇到其他干扰：比如图中是一次“气候维权”大游行，但从拍摄这张照片以来，此处还可能有众多同类游行出现——让你无法分辨照片来自哪个游行。数百万个搜索结果会遮盖你一直在寻找的内容……

　　在该照片发布的最初几个小时中，可用的信息库足以找到拍摄位置，但如果在照片发布后的几个月才开始调查，可能许多可用的信息已经消失了。因此，我们在调查过程中要快速采取行动，尽可能早地收集和保留开源情报信息。

　　其实，防止证据丢失的需求并非开源情报调查所独有，在*敏*感*词*刑侦、*敏*感*词*取证等调查中均需要迅速完善保存好证据，如血迹、指纹、头发样本、脚印之类的重要证据对于解决严重*敏*感*词*来说至关重要。这些法医线索会很快退化或丢失，因此好的调查员会保留它们以防止丢失。

　　图源：摄图网可商用图片

　　这就是为什么*敏*感*词**敏*感*词*发生后，现场会迅速被*敏*感*词*围起来，避免不相干的人闯入破坏了上述证据。如果一开始丢失或污染了这些证据，可能会导致整个*敏*感*词*陷入迷雾。在开源调查中，原理也一样。如果你没有收集和保存正发生或刚发生的事件信息，证据就会丢失。正如上述Twitter图片的例子。

　　但是，在瞬息万变的互联网世界中，宝贵的信息不仅会快速被新信息所掩埋，甚至也可能还有其他恶意行为者在机器人的协助下推动信息战，积极地试图破坏证据、或利用阴谋论淹没原始资料。

　　怎么办？情报君将从两个方面介绍“如何防止”与”如何挽回“。“如何防止”，即从保存的角度，保存、备份信息，不让原始信息“消失”；“如何挽回”则是从恢复的角度，让“消失”的信息“恢复”过来。

　　如何防止？

　　1.屏幕截图

　　可以使用多种工具来快速有效地捕获信息，Screenshot 就有很多不同的屏幕截取工具。如微信、QQ自带的截图工具、电脑快捷键截图，还有一些屏幕截图插件和软件，比如 Snipaste 都可以很方便地进行屏幕截图。

　　在 Mac 上可用 Command+Control+Shift+3， PC 端按 Print Screen 按钮，通常标有“Prt Scr”，或者如果你想抓取活动窗口，可以同时按下“Alt Gr”和“Prt Scr”。

　　还可以在Chrome 网上应用店或Firefox 附加组件页面中查找适用于浏览器的附加组件和扩展程序。许多扩展程序是免费提供的，安装也很方便。

　　捕获屏幕截图后，我们可以将其通过电子邮件发送给某人，在网页上使用它或将其粘贴到 Word 文档中并打印出来。

　　EmailThis ，可以把你想要阅读的文章以邮件的形式发送到邮箱，随时在邮件客户端中阅读保存的文章

　　屏幕抓取的缺点是我们只能保留页面的数字图像，无法单击其链接来访问连接的网页，也无法选择文本或分离出照片。

　　解决此问题的一种方法是将页面、其代码和图像完好无损地保存到硬盘上。

　　2.保存网页

　　保存网页最简单的方法就是按 Ctrl + S 并将网页另存为 HTML 文件。

　　打开Chrome的扩展来右侧的按钮，选择 “更多工具 – 网页另存为”，或者直接按快捷键 Ctrl + S ，就可以打开浏览器的网页保存窗口，将网页的文件全部保存到本地，包括网页内容、图片、代码文件等全部都会拷贝下来。

　　通过选择“仅HTML”作为选项，我们可以保存页面的基本版本，没有图像且功能有限。但选择“全部”选项可以将图像和一些嵌入的技术文件保存到一个单独的文件夹中，允许我们查看和使用在线直播版本的大部分功能。

　　但它也有一些限制，不能保留嵌入的视频或无法执行搜索，但对于大多数用途而言，这是保存基于 Web 的证据的一种非常合适的方式。

　　不过，默认情况下当你保存网页时，每个网页都会带有一个文件夹，管理起来不够方便。此时，你可以做一个操作，将保存类型设置为 .mhtml 格式的单个文件，这样就可以将网页中的所有内容合并成一个文件了，可以更方便地存储和使用。我们还可以将页面另存为 PDF 文档。

　　另外，也可以使用一些保存网页的扩展程序，比如 Save Page WE 这款插件就可以一键保存完整的网页为单个html文件。

　　SingleFile扩展程序，也可以将一个完整的页面（包含 CSS、图像、字体、框架等）保存为单个 HTML 文件。

　　Chrome商店的一款截图扩展 FireShot，它就是专门制作网页长截图的，安装好扩展后，点击捕捉整个页面，FireShot 就会自动滚动页面并截取网页，软件会自动忽略页面中的固定元素，保证内容完整显示。

　　截图完成后，你可以选择存储为图片或PDF格式，还可以发送到Gmail、复制剪贴板等操作，定制性很高，另外，还有一些截图扩展还支持保存到网盘、分享、标注等功能，可以进一步提高工作的效率。

　　如果你只是偶尔需要保存几个网页，又不想安装浏览器扩展，也可以使用支持滚动截图的截图软件来截取网页，比如使用QQ自带的截图、Xnip、CleanShot等都提供了滚动截图功能。

　　只需要在截图时滚动鼠标，它会自动为你拼接出一个长网页，可截取任意长度的网页，不过缺点是对于特别长的网页，滚动截图的方式速度太慢，且需要不断拖动滚轮，所以并不适合重度用户使用。

　　3. TweetBeaver

　　TweetBeaver 包含多个工具，可以从 Twitter 下载所选信息，并在需要时将其导出为CSV。其中的 Twint 是在 Twitter 下载批量信息的好方法，并且它的用户界面非常简单。具有捕获特定种类信息的许*敏*感*词*，并且与一些常见的可视化工具很好地集成在一起。

　　4. Archive.is

　　Archive.is 是“网页的时间胶囊”。它不如互联网档案馆那么知名，也没有包含太多信息，但它可以非常快速地归档你想要的任何页面。只需在红色框中输入页面的URL，Archive.is 便会复制并保存该页面，即使原始页面已被删除。

　　5. Pastebin

　　Pastebin 的界面操作很简单。但它只能用于存储文本。

　　只需要复制并粘贴你要保存的文本，然后 Pastebin 创建一个唯一的URL，还可以将其用作书签。但需要注意在默认情况下保存的内容不是私密的。

　　6. Httrack

　　HTTrack 是保存网站的强大工具。它复制了网站或页面的整个结构，并可离线保存。它比简单地将网页另存为HTML文件更强大，因为它捕获了使网页起作用所需的所有相关脚本和样式。它可让你创建网站的副本以供离线查看。

　　唯一的缺点是，在逐页复制整个网站时，捕获整个网站所需的时间要比仅拍摄一些屏幕截图要长，但相对来说，最终保留的细节要丰富得多。

　　7. YouTube-dl

　　它几乎可从任何网页（不仅仅是YouTube）中获取视频内容。

　　8. Hunchly

　　Hunchly 是捕获Web浏览器证据的最佳工具。当你浏览、抓取网页、视频、屏幕截图、搜索等内容时，它可以在后台默默地捕获证据，同时为你进行的研究创建可审核的踪迹。可免费试用30天，之后一年需要支付约130美元；在 Windows、MacOS 和 Linux 上都可用。

　　9. OSIRT

　　OSIRT Browser可在浏览时进行捕获，具有内置的视频捕获工具、网页捕获功能、还有Tor功能，允许添加自己的记录，最后将整个内容导出为PDF。最初是为执法人员设计的，现已公开提供给所有人使用。

　　如何挽回

　　互联网调查和传统方式调查相比，有一点比较“好”：

　　如果是传统调查，若有人在*敏*感*词*现场擦掉了指纹，指纹可能将永远消失；但在互联网调查中，如果有人删除了一条推文，还可能被找回。所以相对来说，在互联网调查中恢复丢失的信息容易一些。

　　那怎么“恢复”丢失的信息呢？

　　1. Google Cache

　　Google不仅将网页编入索引，还将网页的副本存储在缓存中，这样就可以检索网页的缓存版本，即使原始网页已被删除。要查看网页的缓存版本，只需在搜索URL前面加上 “cache:”即可。

　　比如下面这个已删除的推文，在Google 找到原始推文：

　　点击它你会发现，Twitter 限制了发布者的账户，无法查看该帖子：

　　但是，通过在URL上添加 cache：前缀，并对其进行Google搜索：

　　cache:https://twitter.com/jakecreps/status/1126239101294919685

　　即使原始版本已消失，Google也会返回该缓存的版本，这样就能看到啦：

　　我们也可以直接从搜索结果中访问网页的缓存版本，方法是单击绿色的向下箭头并选择“缓存”。

　　如果此选项不存在，则可能该页面尚未被缓存。

　　2. The Wayback Machine

　　是互联网上最知名的存档资源，它包含了可以追溯多年的网站快照，还具有高级搜索选项，用于挖掘旧的和隐晦的信息。不过也不是万能的，它不能始终捕获所有内容，也不适合捕获包含 Twitter 页面在内的内容快速变化的URL。

　　3.Ceddit 和 Resavr

　　这两个工具都用来捕获并保留已删除的 Reddit 帖子。Ceddit 看起来与 Reddit 主站点很类似，但是它可以保留并存档已从 Reddit 删除的帖子。

　　Resavr 采用的是略有不同的方法，它只是捕获并存档已删除的 Reddit 评论。我们可以检索评论的全文，用户ID，删除的时间以及删除前的停留时间。

　　4. 时间参数搜索

　　正如前文所述，开源情报调查中信息损耗的原因之一是，你正在寻找的数据可能会被较新的搜索结果所淹没。那么对应地，我们就可以按照这个逻辑来解决问题。

　　比如，杰弗里·爱泼斯坦（Jeffrey Epstein）被捕并自杀身亡的故事几乎全球流行。

　　假设我们在Google上搜索“ Jeffrey Epstein”，会得到超过7000万个结果：

　　搜索引擎会尽量确保与热门搜索或最近事件相关的结果在搜索结果中占主导地位。但是，如果你想要研究的是有关他的早期信息怎么办呢？

　　可以利用Google的高级搜索。在搜索结果页面上，选择“工具”，然后单击“任意时间”，然后从下拉菜单中选择“自定义范围”：

　　输入日期范围，Google只会返回这些时间范围内的结果。这样一来，我们可以滤除大量无关信息的干扰。格式为DD / MM / YYYY。

　　举例来说，假设只是想看看 Jeffrey Epstein 从2009年开始的信息结果，可以这样：

　　如果需要非常具体的内容，可以再设置更小、更精确的时间参数，比如具体到某天。不过需要注意的是，我们不能单纯仅看网页显示时间，因为较新的信息也有可能会出现在非常老的网站上。

　　今天的干货分享就到这里，欢迎大家私信交流。

　　如果喜欢可以转发推荐给需要的小伙伴们，感谢支持！

　　END

　　本篇文章为原创内容，未经授权禁止转载

0

2022-09-06

网页内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

【工具】重要信息“404”怎么办？如何防止，如何挽回！

0 个评论

发起人