手机版文章采集软件( 【知识点】红叶文章采集器操作方法软件采集软件的区别)
优采云 发布时间: 2022-01-13 07:14手机版文章采集软件(
【知识点】红叶文章采集器操作方法软件采集软件的区别)
<IMG border=0 alt=红叶文章采集器 src="/uploadfiles/2013-11/20131127090456801.jpg">
红叶文章采集器是一个非常强大的文章采集软件,通过它你可以采集指定网站中的内容文章,并能自动去除广告和垃圾部分,保留精华。本软件采用300线程运行模式,采集效率非常高,一台电脑平均采集20万篇/日文章,非常实用。
红叶文章采集器 如何:
(1)使用前,请确保您的电脑可以联网,且防火墙没有屏蔽此软件。
(2)运行SETUP.EXE和setup2.exe安装操作系统system32支持库。
(3)运行spider.exe,进入URL入口,先点击“手动添加”按钮,再点击“开始”按钮,就会开始执行采集。
红叶文章采集器笔记
(1)抓取深度:填0表示不限制抓取深度;填3表示抓取第三层。
(2)一般蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为"",如果选择一般蜘蛛模式,则会遍历""中的每个网页;如果选择了分类蜘蛛模式,只遍历“”中的每一页。
(3)按钮“从MDB导入”:从TASK.MDB批量导入URL条目。
(4)这个软件的原理采集就是不越站,比如给定的entry是"",只会在百度站内抓取。
(5)本软件运行过程中采集偶尔会弹出一个或多个“错误对话框”,请忽略。如果关闭“错误对话框”,采集 软件将挂起。
(6)用户如何选择采集主题:例如,如果你想采集“股票”文章,只需将那些“股票”网站用作URL即可输入。
红叶文章采集器 软件特色:
(1)本软件采用北大天网MD5指纹排序算法,同一个网页信息不会重复保存。
(2)采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个加权关键字, [[UR]]代表网页中的图片链接,[[TXT]]后面的文字。
(3)正式版和免费版的区别在于,正式版允许采集文章数据的本质自动保存为ACCESS数据库。