网页数据抓取软件(WinWebCrawler如何构建搜索目录的网站管理员的工具？)

优采云发布时间: 2022-03-26 09:00

　　Win Web Crawler 是一款功能强大的网络爬虫，可以从 URL、网站、元标签（标题、描述、关键字）、网络目录、标签之间的纯文本、搜索结果、页面大小和高速、多- 线程化、准确地从文件中提取 URL 列表，并将数据直接保存到磁盘文件中。该程序有许多过滤器来限制会话，例如 URL 过滤器、文本过滤器、数据过滤器、域过滤器、日期修改等。它允许用户选择递归级别、检索线程、超时、代理支持和许多其他选项。构建搜索目录的网站管理员必须拥有的工具。

　　特征

　　1、关键词

　　“Win Web Crawler”蜘蛛顶部搜索引擎正确的网站，并从中获取数据

　　2、快速入门

　　“Win Web Crawler”会查询所有流行的搜索引擎，从搜索结果中提取所有匹配的URL，去除重复的URL，最后访问这些网站并从中提取数据

　　3、深度

　　在这里你需要告诉“Win Web Crawler”——在指定的网站中挖掘多少级。如果您希望“Win Web Crawler”停留在第一页，只需选择“仅处理第一页”。设置为“0”将处理和查找整个网站中的数据。设置“1”将仅处理根目录中具有关联文件的索引或主页

　　4、Spider 基本 URL

　　使用此选项，您可以告诉“Win Web Crawler”始终处理外部站点的基本 URL。例如：在上述情况下，如果则只能访问“Win Web Crawler”的外部站点。除非您将深度设置为覆盖奶粉，否则无法访问

　　5、忽略网址

　　设置此选项以避免重复的 URL，例如

　　两个网址相同。当您设置为忽略 URL 时，“Win Web Crawler”会将所有 URL 转换为小写，并且可以如上所述删除重复的 URL。但是 - 某些服务器区分大小写，您不应在这些特殊站点上使用此选项

　　相关问答

　　1、问：这个提取器需要“Internet Explorer”吗？

　　A: 不，它不需要任何第三方软件/库

　　2、问：用“从文件中提取的URL”设置项目，输入文件名-但是“Win Web Crawler”在文件中找不到任何链接？

　　A：确保该文件存在于磁盘上。该文件必须有一个逐行的 URL，不支持其他格式，“Win Web Crawler”将只接受以 http:// 开头的行。此外，“Win Web Crawler”将不接受图像/二进制文件的 URL，因为它们不会提取任何文本数据

　　3、问：运行“Win Web Crawler”链接提取器时，它会吸收所有的电脑电量，屏幕几乎不刷新？

　　A：看来你使用了很多线程。在“New Session - Miscellaneous”选项卡中将线程值减少到“5”。“Win Web Crawler”可以同时启动多个线程。但请记住，线程设置过高可能会过多地影响您的计算机和/或 Internet 连接，同时还会对主机服务器造成不公平的负载，这可能会减慢进程

　　系统要求

　　视窗 95/98/2000/NT/ME/XP/Vista

　　32MB 内存

　　1 MB 硬盘空间

　　网络连接

0

2022-03-26

网页数据抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页数据抓取软件(WinWebCrawler如何构建搜索目录的网站管理员的工具？)

0 个评论

发起人

AI时代内容工厂

网页数据抓取软件(WinWebCrawler如何构建搜索目录的网站管理员的工具？)

0 个评论

发起人

相关问题