不用采集规则就可以采集(,采集,精确采集规则和模糊采集模式的使用方法)
优采云 发布时间: 2021-11-18 12:08不用采集规则就可以采集(,采集,精确采集规则和模糊采集模式的使用方法)
*官方演示站:,官方技术站:
************************************************
1. 保留所有权利。任何商业用途需购买商业版方可正式使用,否则后果自负
2. 这个垂直搜索引擎系统需要独立的服务器支持,也可以使用本地电脑作为服务器调试,基于lucence+mysql+,
支持数据索引、中文分词、模糊查询、爬虫采集、精确采集规则模式和模糊采集规则模式混合(fuzzy 采集不需要定义每个站采集规则,只定义一个)
目录结构:
网站文件--上传到服务器
|
|----spider_bin 这里是爬虫系统目录
|----ShangPu_zhida_data 商户直列数据
|----Main_set_dats 精确采集规则和模糊采集规则采集规则文件,为每一列创建一个目录
|----Lanmu_Index_templete 栏目首页模板文件目录
3.使用步骤:
一种。上传文件到服务器后,点击网站文件-将这个上传到服务器目录下的spider_bin目录
install_mysql_server_win.exe后点击重新安装fvdou_mysql系统服务按钮启动mysql服务
,然后点击fvdou_spider.exe打开爬虫终端,点击启动采集按钮启动采集,
湾 上传网站文件--将这个上传到服务器目录作为网站根目录wwwroot,如果没有上传到网站根目录wwwroot,
请先上传,待服务器安装好iis+.net框架2.0后,将iis家目录指向此根目录,即可使用
127.0.0.1 或者你的**打开本系统首页
4.采集 规则格式说明:
网站文件--上传到服务器 /Main_set_dats/ 是精确采集规则和模糊采集规则采集规则文件的目录,每列创建一个子目录
比如lanmu2_discount搜索子目录中的lanmu_sets.dat就是采集规则的主要定义文件:
-------------------------------------------------- --------------------------
[$lanmu_name]
折扣搜索
[$lanmu_sort_num]
2
[$lanmu_url_host]
/index_{$lanmu_id}.aspx
[$lanmu_index_template_file]
大哲.html
[$lanmu_id]
大哲_ss
[$mohu_init_search_keyword_from_other_engine]
折扣网
[$mohu_web_root_title_panduan_funname]
is_dz_web_title
[$mohu_web_root_title_panduan_code]
public bool is_dz_web_title(string inn){
if(inn.IndexOf("搜索")!=-1){
//返回假;
}
if(inn.IndexOf("下载")!=-1){
返回假;
}
if(inn.IndexOf("Discount Network")!=-1||inn.IndexOf("Discount Information Network")!=-1){
返回真;
}
返回假;
}
[$page_goto_orders]
[$ext_fields_classpage]
[$ext_fields_infopage]
类别字段中rem是否为0或单位为,如果信息页有匹配的招聘单位,则阅读信息页,否则阅读类页的单位为字段
rem字段||是否是分类字段||字段采集规则英文名称指示||是否存储||是否进行分词||是否是高级搜索||搜索类型||是否是显示在左侧索引菜单中| |左侧菜单的显示类型||固定类型,如价格、添加时间||采集时需要||Lucence搜索类型||左侧索引菜单的显示顺序||little_select_min_word_num
产品名称||0 或单味||spname||1||0||1||little_select||1||links_list||none||0||PrefixQuery||1||8
折扣||0||浙口||1||0||1||little_select||1||links_list||none||1||PrefixQuery||1||8
[$ext_fields_mohu_ziduan_name_enmu]
rem 字段采集 规则英文名称指示|| 所有可能的字段名称的列表,常规|| 可能值的规律性,0 表示匹配所有
名称|| (.{0,3})(产品名称|产品|产品名称|折扣产品|折扣产品)(.{0,3})|| 0
浙口|| (.{0,3})(折扣)(.{0,3})|| 0
[$code_for_ext_fields_data_enmu_guilei_to_small]
-------------------------------------------------- --------------------------
其中:[$lanmu_name]下指定的列名
[$lanmu_url_host] 指定的列路径
[$lanmu_index_template_file] 指定栏目模板文件,在Lanmu_Index_templete栏目首页模板文件目录下
[$lanmu_id] 为列id,不可重复
[$mohu_init_search_keyword_from_other_engine]是其他搜索引擎采集初始化采集源数据时模糊采集规则的关键字
[$mohu_web_root_title_panduan_funname] 指定[$mohu_web_root_title_panduan_code]中代码的函数名,不能重复
[$mohu_web_root_title_panduan_code] 是判断首页标题是否为目标站类型的函数
[$ext_fields_infopage] 是所有采集字段的定义
[$ext_fields_mohu_ziduan_name_enmu] 是一个模糊的采集规则,比如spname || (.{0,3})(产品名称|产品|产品名称|打折产品|打折产品)(.{0,3})|| 0
意思是提取产品名称或产品或产品名称或折扣产品右侧的最新文本作为spname字段中的采集数据
——
lanmu1_recruitment search/webs_guize 以下文件是精确的采集规则文件定义,每个目标站一个文件
其中 [$page_url_regex] 为 0 表示没有过滤 url,
[$caiji_info_fields_regex]中的regular/location规则详解,如[fd_datatoget]中的[fd_datatoget]代表目标采集数据部分
zpdw|+| 正则表达式|+|招聘单位:\s*[fd_datatoget]