文章采集软件免费版(全名为钻月高性能网页爬虫文章-解压即可使用)

优采云 发布时间: 2022-01-08 22:16

  文章采集软件免费版(全名为钻月高性能网页爬虫文章-解压即可使用)

  Drill Moon 高性能网络爬虫文章采集器 6.0 简介:

  1 软件特点 本软件是一个通用的网页爬虫采集。它可以是世界上任何一个网站的采集全站精华文章,无需配置模板。这个软件的全称是Diamond Moon High-Performance Web Crawler文章采集器-,属于网络蜘蛛爬虫程序,用于指定网站采集@ >海量精华文章,会直接丢弃垃圾网页信息,只保存有阅读价值和浏览价值的精华文章,自动进行HTM-TXT转换,提取标题、文字图片等信息、文字等。本软件为绿色软件,解压后即可使用。本软件特点如下:(1)本软件采用北大天网MD5指纹排序算法,对于相似、相同的网页信息,直接丢弃,不再重复采集。( 2)采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示这个文章顶部TOP10中频繁出现的10个加权关键词,[[UR]]代表网页中的文字图片链接,[[TXT]]后面是文字。(3)蜘蛛表现:软件开300个线程保证采集的效率,通过采集百万精华文章进行压力测试,以普通网友的联网电脑为参考标准,单台电脑即可穿越一天200万个网页,文章@采集20万精华文章,100万精华文章只有5天采集完成。(4)区别正式版和免费版之间是:off cial版 版本允许自动保存采集的精华文章数据到ACCESS数据库,免费版不能保存数据到数据库。

  请联系QQ(970093569)购买正式版。 2 操作步骤(1)使用前必须确保电脑可以联网,防火墙不屏蔽)软件。(2)运行SETUP.EXE和setup2.exe安装操作系统system32支持库。(3)运行spider.exe,进入URL入口,点击手动添加按钮,然后点击开始按钮,开始执行采集. 3 使用注意事项(1)抓取深度:填0表示不限制抓取深度;填3表示抓取第三层. (2)普通蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为"",如果选择普通蜘蛛模式,则会遍历""中的每一个网页;如果是分类蜘蛛模式选中后,只会遍历“”中的每个网页。(3)按钮“从MDB导入”:从TASK.MDB批量导入URL入口。(4)本软件的原理采集 不是越过车站。例如,如果条目是“”,则仅在百度站点上。内部捕获。(5)本软件运行过程中采集偶尔会弹出一个或多个“错误对话框”,请忽略。如果关闭“错误对话框”,采集@ >软件会挂机,如果软件挂机,之前的采集信息不会丢失,再次启动软件执行采集时,之前的采集信息不会被重置。采集,可以实现很好的增量采集。(6)用户如何选择采集主题:比如如果你想采集 “股票”文章,只需将那些“股票”网站用作 URL 条目。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线