集搜客网页抓取软件(WinWebCrawler怎么设置?怎么办?软件)
优采云 发布时间: 2021-10-23 10:06集搜客网页抓取软件(WinWebCrawler怎么设置?怎么办?软件)
Win Web Crawler 是一款功能强大的网络爬虫工具,可以从文件中检索 URL、网站、元标签、网络目录、标签之间的纯文本、搜索结果、页面大小和 URL 列表中高速,多线程,准确提取,直接将数据保存到磁盘文件,程序有多种过滤器限制会话,如URL过滤器、文本过滤器、数据过滤器、域过滤器、日期修改等,欢迎使用下载。
软件功能:
1、关键词
“Win Web Crawler”蜘蛛顶级搜索引擎用于纠正网站并从中获取数据。
2、快速入门
“Win Web Crawler”会查询所有流行的搜索引擎,从搜索结果中提取所有匹配的网址,删除重复的网址,最后访问这些网站并从中提取数据。
3、深度
这里,你需要告诉“Win Web Crawler”——在指定的网站中挖掘多少级。如果您希望“Win Web Crawler”保留在第一页,只需选择“仅处理第一页”即可。 “0”的设置将在整个网站中处理和查找数据。设置“1”将只处理根目录下有关联文件的索引或主页。
4、蜘蛛基础网址
使用此选项,您可以告诉“Win Web Crawler”始终处理外部站点的基本 URL。
5、忽略网址
设置此选项可避免重复网址,例如
////产品/牛奶/
///产品/牛奶/
这两个网址是一样的。当您设置为忽略 URL 时,“Win Web Crawler”会将所有 URL 转换为小写,并且可以如上所述删除重复的 URL。但是,某些服务器区分大小写,您不应在这些特殊站点上使用此选项。