Url采集工具使用说明程序主要运用于批量采集的脚本工具
优采云 发布时间: 2021-08-13 00:20Url采集工具使用说明程序主要运用于批量采集的脚本工具
Url采集 工具是一个非常有用的 url 批处理 采集 脚本工具。该软件可以帮助用户在百度热门搜索、360搜索、搜狗搜索等搜索引擎采集上进行关键词。另外,Url采集器免费版还可以采集单个网址,用途非常广泛。
Url采集器 工具使用起来非常方便。全视图模块的操作方式,只需点击鼠标即可完成。有需要的朋友赶紧下载吧。
Url采集tool 说明
该程序主要用于安全渗透测试项目,以及各种cms系统0DAY漏洞影响的批量评估。也是批量采集感兴趣的小程序网站~~
测试环境为Python2.7.x 如果需要python3版本可以自己修改,或者在我的博客留言
目前只有采集百度搜索引擎结果可用。每页默认显示50条记录。您可以自定义您希望采集 进入的页数。
如果您希望采集关键词与前3页的“黑客”网站、采集百度结果相关,请输入以下内容:
请输入关键字:hacker
搜索页数:3
Url采集工具功能
1:Url采集工具获取百度搜索结果的真实URL地址
2:可以忽略不需要的常见网站,比如忽略百度翻译,等等所有百度相关的结果,直接加入数组即可。程序默认忽略了很多项,比如
filter_array1 = ['','','','','','','','','']
filter_array2 = ['','','']
filter_array3 = ['','','','','','','','','']
filter_array4 = ['','','','']
filter_array5 = ['','','','']
3:实时显示采集到达的网页的【真实网址】和【标题】。前面的[ID]对应当前页面百度结果的X数据
4:自动将结果保存到当前目录下的txt文件中,文件名搜索关键词.txt为了方便导入其他工具,txt文件中只记录了采集的URL 如果需要同时记录标题,删除代码中的注释。
5:自动删除重复记录
6:统计采集项目总数(找到143个)、有效项目数(91个检查)、过滤项目数(52个过滤器)、过滤重复URL数(9个删除)
7:开源,任何人都可以下载使用。由于本人能力有限,如果有好的建议和修正,希望共同改进
8:跨平台,不存在捆绑后门的风险。以前网上的百度URL采集软件大多是WINDOWS下的可执行文件,现在百度更新后不正常采集了。
9:程序会不断更新
Url采集tool 更新
由于时间限制,没有做优化。很多自定义参数也使用默认值,下个版本会增加自定义参数
之后,必应搜索引擎和goole引擎的采集功能将陆续加入,与百度合并。如果需求增加,也增加多线程或多进程扫描
如果百度更新导致采集找不到内容,可以在我的博客留言联系我修改