维基百科：Web搜寻器开发的免费开放源代码(图)

优采云发布时间: 2021-07-08 22:52

　　来自维基百科

　　网络爬虫（有时称为蜘蛛）是互联网机器人，通常系统地浏览网络索引以进行网络索引。

　　网络爬虫从要访问的 URL 列表（称为*敏*感*词*）开始。当爬虫访问这些 URL 时，它会识别页面中的所有超链接，并将它们添加到要访问的 URL 列表中。如果爬虫正在执行网站的归档，它会复制并保存信息。存档称为存储库，旨在存储和管理网页集合。存储库类似于任何其他存储数据的系统，例如现代数据库。

　　让我们开始吧！！

　　Metasploit

　　这个辅助模块是一个模块化的网络爬虫，可以与wmap（有时）或独立使用。

　　使用辅助/爬虫/msfcrawler

　　msf 辅助(msfcrawler)> 设置 rhosts

　　msf 辅助（msfcrawler）> 漏洞利用

　　从截图中可以看到截图已经加载了搜索引擎，这样就可以对任何网站准确隐藏文件，比如about.php、jquery联系表单、html等，同时使用浏览器无法准确隐藏网站。为了采集任何网站信息，我们可以使用它。

　　Httrack

　　HTTrack 是 Xavier Roche 开发的免费开源网络搜索器和离线浏览器

　　它可以让你将网上的wanwei网站dots下载到本地目录，递归构建所有目录，从服务器获取HTML、图片等文件到电脑。 HTTrack 整理原站的相对链接结构。

　　在终端输入以下命令

　　httrack –O /root/Desktop/file

　　它将输出保存在给定的目录 /root/Desktop/file 中。

　　从给定的屏幕截图中，您可以观察到这一点，它使网站信息包括 html 文件以及 JavaScript 和 jquery 变得愚蠢

　　黑寡妇

　　此Web Spider实用程序检测并显示用户选择的网页的详细信息，并提供其他网络工具。

　　BlackWidow 干净、合乎逻辑的标签式界面足够简单，适合中级用户，但在底部足以满足高级用户的需求。只需输入您选择的 URL，然后按 Go。 BlackWidow 使用多线程快速下载所有文件和测试链接。对于小网站，这个操作只需要几分钟。

　　您可以从这里下载。

　　在地址字段中输入您的 URL，然后按 Go。

　　点击开始按钮开始扫描左边的网址，然后选择一个文件夹来保存输出文件按钮。

　　从截图中可以看出，我浏览了 C:\Users\RAJ\Desktop\tptl 以便将输出文件存储在其中。

　　打开目标文件夹tptl，会得到网站图片或内容的完整数据，html文件、php文件和JavaScript都存储在里面。

　　网站开膛手复印机

　　Website Ripper Copier (WRC) 是一种通用高速网站downloader 软件，用于保存网站数据。 WRC 可以将网站文件下载到本地驱动器进行离线浏览，提取特定大小和类型的网站文件，例如图像、视频、图片、电影和音乐，并充当具有恢复支持的下载管理器检索大量的文件和镜像站点。 WRC 还是站点链接验证器、资源管理器和选项卡式反弹网页/离线浏览器。

　　Website Ripper Copier 是唯一可以从 HTTP、HTTPS 和 FTP 连接恢复中断下载、访问受密码保护的网站、支持 Web Cookie、分析脚本、更新检索到的网站或文件并启动 50 @K14 的下载用于多个检索线程的@downloader 工具

　　您可以从这里下载。

　　选择“离线浏览网站（网站）”选项。

　　输入网站URL 并点击下一步。

　　提取目录路径保存输出结果，然后点击立即运行。

　　当你打开选定的文件夹 tp 时，你会在其中看到 CSS、php、html 和 js 文件。

　　Burp Suite Spider

　　Burp Spider 是一款自动抓取 Web 应用程序的工具。通常最好手动映射应用程序，但对于非常大的应用程序或时间不足的情况，可以使用 Burp Spider 来部分自动化此过程。

　　欲了解更多详情，请从这里阅读我们之前的文章。

　　从给定的截图中，您可以观察到我获得的http请求；现在它在“Operation”标签的帮助下发送给Spider。

　　Target网站已添加到站点地图中“目标”选项卡下的位置，作为网络爬行的新范围。从截图中可以看出，它启动了对目标网站的网络爬虫。在这个网站中，它以php、html和js的形式采集了网站信息。

　　作者：Aarti Singh 是 Hacking Articles（信息安全顾问、社交媒体爱好者和小工具）的研究员和技术作家。入侵

0

2021-07-08

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

维基百科：Web搜寻器开发的免费开放源代码(图)

0 个评论

发起人

AI时代内容工厂

维基百科：Web搜寻器开发的免费开放源代码(图)

0 个评论

发起人

相关问题