网页信息抓取软件(WinWebCrawler修复部分小错误性能优化让你使用体验更流畅)
优采云 发布时间: 2022-03-12 22:24网页信息抓取软件(WinWebCrawler修复部分小错误性能优化让你使用体验更流畅)
Win Web Crawler是一款功能强大的网络爬虫,可以从文件中快速提取URL、网站、元标签、网页目录、标签之间的纯文本、搜索结果、页面大小和URL列表,多线程,精准提取,并将数据直接保存到磁盘文件,程序有许多过滤器来限制会话,例如URL过滤器,文本过滤器,数据过滤器,域过滤器,日期修改等。欢迎下载。
软件特点:
1、关键词
正确的 网站 的“Win Web Crawler”蜘蛛顶部搜索引擎,并从中获取数据。
2、快速入门
“Win Web Crawler”会查询所有流行的搜索引擎,从搜索结果中提取所有匹配的URL,去除重复的URL,最后访问这些网站并从中提取数据。
3、深度
在这里你需要告诉“Win Web Crawler”——在指定的网站中挖掘多少级。如果您希望“Win Web Crawler”停留在第一页,只需选择“仅处理第一页”。设置为“0”将处理和查找整个 网站 中的数据。设置为“1”将仅处理根目录下具有关联文件的索引或主页。
4、Spider 基本 URL
使用此选项,您可以告诉“Win Web Crawler”始终处理外部站点的基本 URL。例如:在上述情况下,如果 /product/milk/ 则只能访问“Win Web Crawler”的外部站点。除非您将深度设置为覆盖奶粉,否则无法访问
5、忽略网址
设置此选项以避免重复的 URL
两个网址相同。当您设置为忽略 URL 时,“Win Web Crawler”会将所有 URL 转换为小写,并且可以如上所述删除重复的 URL。但是 - 某些服务器区分大小写,您不应在这些特殊站点上使用此选项。
变更日志(2019.09.09)
1.修复一些小bug,提升整体稳定性
2.修复已知页面冻结问题
3.性能优化让你的体验更流畅
应用百科
网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常被称为网络追逐者)是根据一定规则自动爬取万维网上信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。