网页数据抓取软件(WinWebCrawler如何构建搜索目录的网站管理员的工具?)

优采云 发布时间: 2022-03-26 09:00

  网页数据抓取软件(WinWebCrawler如何构建搜索目录的网站管理员的工具?)

  Win Web Crawler 是一款功能强大的网络爬虫,可以从 URL、网站、元标签(标题、描述、关键字)、网络目录、标签之间的纯文本、搜索结果、页面大小和高速、多- 线程化、准确地从文件中提取 URL 列表,并将数据直接保存到磁盘文件中。该程序有许多过滤器来限制会话,例如 URL 过滤器、文本过滤器、数据过滤器、域过滤器、日期修改等。它允许用户选择递归级别、检索线程、超时、代理支持和许多其他选项。构建搜索目录的 网站 管理员必须拥有的工具。

  

  特征

  1、关键词

  “Win Web Crawler”蜘蛛顶部搜索引擎正确的网站,并从中获取数据

  2、快速入门

  “Win Web Crawler”会查询所有流行的搜索引擎,从搜索结果中提取所有匹配的URL,去除重复的URL,最后访问这些网站并从中提取数据

  3、深度

  在这里你需要告诉“Win Web Crawler”——在指定的网站中挖掘多少级。如果您希望“Win Web Crawler”停留在第一页,只需选择“仅处理第一页”。设置为“0”将处理和查找整个 网站 中的数据。设置“1”将仅处理根目录中具有关联文件的索引或主页

  4、Spider 基本 URL

  使用此选项,您可以告诉“Win Web Crawler”始终处理外部站点的基本 URL。例如:在上述情况下,如果则只能访问“Win Web Crawler”的外部站点。除非您将深度设置为覆盖奶粉,否则无法访问

  5、忽略网址

  设置此选项以避免重复的 URL,例如

  两个网址相同。当您设置为忽略 URL 时,“Win Web Crawler”会将所有 URL 转换为小写,并且可以如上所述删除重复的 URL。但是 - 某些服务器区分大小写,您不应在这些特殊站点上使用此选项

  

  相关问答

  1、问:这个提取器需要“Internet Explorer”吗?

  A: 不,它不需要任何第三方软件/库

  2、问:用“从文件中提取的URL”设置项目,输入文件名-但是“Win Web Crawler”在文件中找不到任何链接?

  A:确保该文件存在于磁盘上。该文件必须有一个逐行的 URL,不支持其他格式,“Win Web Crawler”将只接受以 http:// 开头的行。此外,“Win Web Crawler”将不接受图像/二进制文件的 URL,因为它们不会提取任何文本数据

  3、问:运行“Win Web Crawler”链接提取器时,它会吸收所有的电脑电量,屏幕几乎不刷新?

  A:看来你使用了很多线程。在“New Session - Miscellaneous”选项卡中将线程值减少到“5”。“Win Web Crawler”可以同时启动多个线程。但请记住,线程设置过高可能会过多地影响您的计算机和/或 Internet 连接,同时还会对主机服务器造成不公平的负载,这可能会减慢进程

  系统要求

  视窗 95/98/2000/NT/ME/XP/Vista

  32MB 内存

  1 MB 硬盘空间

  网络连接

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线