假如您想同时搜索所有这些文件类型,在谷歌或必应中输入以下字符串就可以找到有关 OSINT 主题的大多数文档。你可以把这个词改成其他任何感爱好的词。
"OSINT" filetype:pdf OR filetype:doc OR filetype:xls OR filetype:xlsx OR filetype:docx OR filetype:ppt OR filetype:pptx OR filetype:wpd OR filetype:txt
这个查询根本上是告诉搜索引擎在 PDF、Microsoft Word 和其他文档中查找任何与 OSINT 相干的内容,并表现所有效果。第九章中介绍的谷歌自界说搜索引擎(CSE)是进行此类搜索的绝佳资源。不外,我强烈建议你了解人工搜索过程。这比任何自动解决方案都更有控制力。
别的,谷歌 CSE 还限制了搜索效果的数量。因此,我不再建议完全依靠它进行文档搜索。它根本无法与布局合理的 Google 或 Bing 查询相媲美。本章末端介绍的自界说搜索工具将进一步简化这统统。
20.2 谷歌文档(docs.google.com)
将用户创建的文档存储在互联网上的想法越来越流行。将这些文件保存在 “云端”,就不需要在 CD 或闪存盘等设备上进行个人存储。别的,在互联网上存储文件还答应作者从任何一台能连接互联网的电脑上访问和编辑这些文件。
这些文件托管网站的一个常见用途是仅在编辑阶段存储文件。一旦文档完成且不再需要,用户大概会忘记将其从公共视图中删除。谷歌是最受欢迎的文档存储网站之一。假如需要,用户可以将存储的文档嵌入本身的网站。搜索网站相对容易。
许多谷歌邮件(Gmail)用户都会使用谷歌的免费文档存储服务,即谷歌文档或谷歌硬盘。创建文档时,默认情况下文档是私有的,公众无法看到。
但是,当人们想与朋友或同事共享文档时,就必须更改共享属性。固然可以与个别谷歌用户私下共享文件,但许多人以为将文件公开更容易。这些用户中的大多数大概会以为,除了预定的接收者之外,其他人不会看到这些文件。毕竟,谁会去搜索别人的文件呢?我们会的。
Google Docs 和 Google Drive 网站不提供搜索这些公共文件的选项,但你可以使用 Google 搜索来搜索。如今,谷歌答应搜索引擎索引大部分公共文件,你应该可以通过一些特定的搜索方法找到它们。下面的搜索示例将解释在 google.com 上进行搜索的几个选项。精确搜索与预期效果一起列出。
这些示例应作为文档搜索多种大概性的起点。
site:docs.google.com "resume" - 29,800 online resumes
site:docs.google.com "resume" "Williams" - 985 resumes with the name Williams
site:docs.google.com "Corey Trager" - 1 document (resume) belonging to the target
site:docs.google.com 865-274-2074 - 1 document containing the target number
Google 对用户创建的文档进行了分类。下面的示例确定了按类型表现文档的搜索。
site:docs.google.com/presentation/d - 325,000 PowerPoint presentations
site:docs.google.com/drawings/d - 18,600 Google flowchart drawings
site:docs.google.com/file/d - 945,000 images, videos, PDF files, and documents
site:docs.google.com/folder/d - 4,000 collections of files inside folders
site:docs.google.com/open - 1,000,000 external documents, folders, and files
2013 年,谷歌开始将一些用户生成的文档放到 “drive.google.com ”域上。因此,使用前面介绍的方法进行搜索时,应将 “docs ”改为 “drive”。
“文档"。之前搜索电话号码的方法如下。
site:drive.google.com 865-274-2074
20.3 微软文档(docs.microsoft.com)
与 Google Drive 雷同,Microsoft Docs 也提供存储和共享文档的功能。该服务不如 Google Drive 流行。不外,这里有成千上万份公开可见的文档等着你去发现。共享文件存储在 docs.microsoft.com 域名上。简历查询如下。可以在谷歌或必应上进行搜索。谷歌的搜索效果是 63,400 份包含个人信息的简历文件。
site:docs.microsoft.com "resume"
20.4 亚马逊网络服务(amazonaws.com)
你已经在自界说 Linux 虚拟机中拥有了一个文档元数据查看器。它名为 ExiITool,我们在前面几章中已经安装了它。这是一个基于终端的解决方案,但功能相当 简朴。假设你已经使用前面的技能将几个 .docx 文件格式的 Word 文档下载到桌面上名为 Evidence 的文件夹中。终端 "中的以下步骤将导航到适当的文件夹,生成包含文档元数据的电子表格,并将其命名为 Report.csv,放在桌面上的 Evidence 文件夹中。
cd ~/Desktop/Evidence
exiftool * -csv > ~/Desktop/Evidence/Report.csv
复制代码
让我们举例看看效果。我在谷歌上进行了如下搜索:ext:docx "osint”
这提供了 371 个效果,都是 Microsoft Word 文档。我将前四个文件下载到桌面上的证据文件夹中。执行上述命令后,我启动了电子表格。下图表现了一小部分有趣的效果。这告诉了我创建和末了修改文档的人员姓名、涉及的公司、使用的软件,乃至他们编辑内容所花费的时间。这些都黑白常有价值的信息,在每次观察获取文档时都应该网络。
您大概需要一个基于 Windows、界面友爱的解决方案。POCA 曾经是首屈一指的文档元数据网络和提取工具。它的创建目的是在一次执行中搜索、下载和分析文档及其元数据。不幸的是,谷歌和其他搜索引擎开始阻止该软件的搜索和下载行为。幸运的是,分析部分仍能完美运行。以下步骤将把 POCA 下载并安装到 Windows VM 或任何其他 Windows 设备上。
如今,您可以点击左侧的菜单,查看与这些文件相干的任何元数据详情,如电子邮件地址、姓名和计算机。这种方法的利益是用户界面友爱,但却捐躯了一个报告选项。前一种 ExiITool 方法固然不美观,但电子表格效果很有用。最终,我以为你应该熟悉这两种方法,并选择最适合你的方法。
比如:丹尼斯-林恩-拉德(Dennis Lynn Rader)也被称为 BTK 杀手,他向威奇托警察局发送了一张软盘,其中包含一个 Microsoft Word 文档,提到了他的杀人行为。警方查抄了该文档的元数据,确定它是由一个名为 “丹尼斯 ”的人制作的。在这些数据中还发现了与路德教会的链接。对这两条信息进行 OSINT 搜索有助于确定嫌疑人的身份并实行逮捕。
有些文件在内容中存储的元数据远远多于与文件相干的官方元数据。我最常见到的就是 PowerPoint 文件。让我们来做个演示。我在 Google 上搜索 ext:pptx “osint”。第一个效果是一个 PowerPoint 演示文稿,我下载了它。前面的方法公布了我们希望看到的所有标准元数据。然后,我将 PowerPoint 演示文稿文件的名称从 “OpenSourcelntelligence-OSINT.pptx ”改为
“OpenSourcelntelligence-OSINT.zip"。这就告诉我的电脑,这个文件如今是一个压缩文件。
然后,我对压缩文件进行了解压,解压后出现了几十个新文件。这些都是 PowerPoint 本身的幕后内容。它们包括演示文稿中的所有图片,这些图片可以很容易地进行元数据分析,以及幻灯片中所有文字的文本提取。app.xml "文件证实,作者使用的是微软 Office 2016(应用版本> 16.0000)中的 PowerPoint,有几个文件包含该用户的唯一标识符。将这些文件与其他下载文件进行比较,可以证实每个文件的作者都是同一个人。
具有讽刺意味的是,这个从谷歌效果中随机选取的 Power Point 文件包含我在书末介绍的 OSINT 流程图,但文件所有者声称这些流程图是他本身的作品,并注明 “Cybersecmentorship.org 版权所有”。显然,这种技能也有助于揭破侵犯版权和公然剽窃的行为。
20.14 OCR
免费 OCR (free-ocr.com)
你大概偶尔会找到一个未对文本内容进行索引的 PDF 文件。这类 PDF 文件不答应您复制和粘贴任何文本。这大概是由于扫描技能不佳或故意克制外部使用这些内容。您大概希望获取这些文本作为摘要报告。这些文件可以上传到 Free OCR 并转换为文本文档。OCR 是光学字符识别的缩写。根本上,计算机会 “读取 ”文档,并确定内容中的文本是什么。效果就是一个具有复制和粘贴功能的新文档。