网页信息抓取软件(WinWebCrawler修复部分小错误性能优化让你使用体验更流畅)

优采云 发布时间: 2022-03-12 22:24

  网页信息抓取软件(WinWebCrawler修复部分小错误性能优化让你使用体验更流畅)

  Win Web Crawler是一款功能强大的网络爬虫,可以从文件中快速提取URL、网站、元标签、网页目录、标签之间的纯文本、搜索结果、页面大小和URL列表,多线程,精准提取,并将数据直接保存到磁盘文件,程序有许多过滤器来限制会话,例如URL过滤器,文本过滤器,数据过滤器,域过滤器,日期修改等。欢迎下载。

  

  软件特点:

  1、关键词

  正确的 网站 的“Win Web Crawler”蜘蛛顶部搜索引擎,并从中获取数据。

  2、快速入门

  “Win Web Crawler”会查询所有流行的搜索引擎,从搜索结果中提取所有匹配的URL,去除重复的URL,最后访问这些网站并从中提取数据。

  3、深度

  在这里你需要告诉“Win Web Crawler”——在指定的网站中挖掘多少级。如果您希望“Win Web Crawler”停留在第一页,只需选择“仅处理第一页”。设置为“0”将处理和查找整个 网站 中的数据。设置为“1”将仅处理根目录下具有关联文件的索引或主页。

  4、Spider 基本 URL

  使用此选项,您可以告诉“Win Web Crawler”始终处理外部站点的基本 URL。例如:在上述情况下,如果 /product/milk/ 则只能访问“Win Web Crawler”的外部站点。除非您将深度设置为覆盖奶粉,否则无法访问

  5、忽略网址

  设置此选项以避免重复的 URL

  两个网址相同。当您设置为忽略 URL 时,“Win Web Crawler”会将所有 URL 转换为小写,并且可以如上所述删除重复的 URL。但是 - 某些服务器区分大小写,您不应在这些特殊站点上使用此选项。

  变更日志(2019.09.09)

  1.修复一些小bug,提升整体稳定性

  2.修复已知页面冻结问题

  3.性能优化让你的体验更流畅

  应用百科

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常被称为网络追逐者)是根据一定规则自动爬取万维网上信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线