免费提供:红叶文章采集器3.6 免费版
优采云 发布时间: 2020-11-06 12:02Momiji文章采集器3.6免费版
Hongye文章采集器是超级强大的[k14]文章采集器,英文名称Fast_Spider,属于蜘蛛采集器程序,用于指定网站采集质量本质文章,将直接丢弃垃圾邮件网页信息,仅保留阅读价值和浏览价值的本质文章,自动执行HTM-TXT转换,并在必要时下载和使用。
Hongye文章采集器软件功能
(1)该软件采用北京大学天网的MD5指纹重新排列算法。对于相似和相同的网页信息,将不会重复保存。
(2)采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个加权关键字,[[UR]]表示链接到网页上的图片以及[[TXT]]之后的文字。
(3)Spider性能:该软件打开300条线程以确保采集的效率。压力测试是通过采集 100万个要素文章进行的,普通网民使用的联网计算机用作参考标准,单个计算机可以在一天之内遍历200万个网页,采集 200,000个要素文章,在短短5天内遍历100万个要素文章。
(4)正式版和免费版之间的区别在于,正式版允许采集本质文章数据自动保存为ACCESS数据库。
Hongye文章采集器使用说明
1、抓取深度:填入0表示捕获深度不受限制;填写3表示已捕获第三层。
2、普通蜘蛛模式和分类蜘蛛模式之间的区别:假设URL条目为“”,如果选择了普通蜘蛛模式,则将遍历“”中的每个网页;如果选择了分类蜘蛛模式,则将遍历其中的每个网页。“
3、按钮“从MDB导入”:URL条目从TASK.MDB批量导入。
4、此软件采集的原理是不越站。例如,如果条目为“”,则只会在百度站点内进行爬网。
5、在此软件采集的过程中,偶尔会弹出一个或几个“错误对话框”。请忽略它。如果关闭“错误对话框”,则采集软件将挂起。如果软件挂起,则先前的采集信息将不会丢失。当再次启动软件执行采集时,已被重新输入采集的信息将不会被重新输入采集,并且可以实现良好的增量采集。
6、用户如何选择采集主题:例如,如果要采集“股票” 文章,则只需使用这些“股票”网站作为URL条目。