网页数据抓取软件(WinWebCrawler如何构建搜索目录的网站管理员的工具?)
优采云 发布时间: 2022-03-26 09:00网页数据抓取软件(WinWebCrawler如何构建搜索目录的网站管理员的工具?)
Win Web Crawler 是一款功能强大的网络爬虫,可以从 URL、网站、元标签(标题、描述、关键字)、网络目录、标签之间的纯文本、搜索结果、页面大小和高速、多- 线程化、准确地从文件中提取 URL 列表,并将数据直接保存到磁盘文件中。该程序有许多过滤器来限制会话,例如 URL 过滤器、文本过滤器、数据过滤器、域过滤器、日期修改等。它允许用户选择递归级别、检索线程、超时、代理支持和许多其他选项。构建搜索目录的 网站 管理员必须拥有的工具。
特征
1、关键词
“Win Web Crawler”蜘蛛顶部搜索引擎正确的网站,并从中获取数据
2、快速入门
“Win Web Crawler”会查询所有流行的搜索引擎,从搜索结果中提取所有匹配的URL,去除重复的URL,最后访问这些网站并从中提取数据
3、深度
在这里你需要告诉“Win Web Crawler”——在指定的网站中挖掘多少级。如果您希望“Win Web Crawler”停留在第一页,只需选择“仅处理第一页”。设置为“0”将处理和查找整个 网站 中的数据。设置“1”将仅处理根目录中具有关联文件的索引或主页
4、Spider 基本 URL
使用此选项,您可以告诉“Win Web Crawler”始终处理外部站点的基本 URL。例如:在上述情况下,如果则只能访问“Win Web Crawler”的外部站点。除非您将深度设置为覆盖奶粉,否则无法访问
5、忽略网址
设置此选项以避免重复的 URL,例如
两个网址相同。当您设置为忽略 URL 时,“Win Web Crawler”会将所有 URL 转换为小写,并且可以如上所述删除重复的 URL。但是 - 某些服务器区分大小写,您不应在这些特殊站点上使用此选项
相关问答
1、问:这个提取器需要“Internet Explorer”吗?
A: 不,它不需要任何第三方软件/库
2、问:用“从文件中提取的URL”设置项目,输入文件名-但是“Win Web Crawler”在文件中找不到任何链接?
A:确保该文件存在于磁盘上。该文件必须有一个逐行的 URL,不支持其他格式,“Win Web Crawler”将只接受以 http:// 开头的行。此外,“Win Web Crawler”将不接受图像/二进制文件的 URL,因为它们不会提取任何文本数据
3、问:运行“Win Web Crawler”链接提取器时,它会吸收所有的电脑电量,屏幕几乎不刷新?
A:看来你使用了很多线程。在“New Session - Miscellaneous”选项卡中将线程值减少到“5”。“Win Web Crawler”可以同时启动多个线程。但请记住,线程设置过高可能会过多地影响您的计算机和/或 Internet 连接,同时还会对主机服务器造成不公平的负载,这可能会减慢进程
系统要求
视窗 95/98/2000/NT/ME/XP/Vista
32MB 内存
1 MB 硬盘空间
网络连接