网页抓取工具(UU死链检查工具通过命令行启动浏览器或实用插件方式设置)
优采云 发布时间: 2021-09-18 01:11网页抓取工具(UU死链检查工具通过命令行启动浏览器或实用插件方式设置)
UU网页列表抓取工具的原理
UU死链检查工具通过命令行启动浏览器或以实用插件的形式设置浏览器,允许跨域请求,直接使用JS下载列表中每个链接的HTML,支持数据打包导出和简单的数据处理
请根据您自己网络的实际情况合理设置加载超时。如果发现无法爬网的链接,可以再次手动爬网
如果网页列表数量过大,请多次抓取并及时导出,以免数据丢失。爬网期间浏览器无法刷新,否则数据将完全丢失
浏览器要求
默认情况下,此工具适用于较新版本的Chrome浏览器。由于本机浏览器具有跨域请求限制,因此无法直接获取数据。它需要为浏览器进行相关设置。通常,可以从命令行启动chrome,或者使用chrome插件解除跨域限制
1、使用命令行启动浏览器
打开CMD命令行并输入“C:\ProgramFiles”(x86)\Google\Chrome\Application\Chrome.exe”--禁用web安全--用户数据目录=c:/
按enter键打开浏览器。请注意以前的浏览器路径。如果发现路径错误提示,请根据实际情况将其替换为正确的路径
如果一切正常,浏览器将启动,您可以看到浏览器地址栏下方的提示:您正在使用不受支持的命令行标记:-禁用web安全性。稳定性和安全性将降低
如果无法启动或未在--Disable web security模式下启动,则表示操作失败。请自行搜索相关方法(搜索:Chrome删除跨域限制)。由于浏览器版本不同,操作可能会有所不同
2、使用插件删除跨域限制。[强烈建议!]
转到Google插件商店安装并启动allow-CORS:access-control-allow-origin
数据导出格式
网站list数据将导出为TXT文件。每行收录一个网址数据。数据为JSON格式,包括三个字段:URL、HTML和status网站URL,网站HTML源代码和采集status。其中采集status 0表示它在队列中,1表示它正在爬网,2表示它成功,以及3表示它失败
导出数据后,可以直接导入以前导出的数据继续处理
预防措施
在使用此工具之前,请确保跨域限制已解除。否则,尽管显示抓取成功,但数据尚未被抓取。具体来说,您可以按F12键检查是否存在与跨域限制相关的错误,或者您可以检查实时抓取数据的长度stURL列表右上角的统计信息。如果采集成功,则应合理增加数据长度
记住以小批量采集导出数据,以避免数据丢失和失败