网页文章自动采集(善肯网页TXT采集器使用教程知识兔关于规则设置的设置)
优采云 发布时间: 2022-02-09 23:02网页文章自动采集(善肯网页TXT采集器使用教程知识兔关于规则设置的设置)
很多喜欢看小说的用户需要将小说下载到手机上,但是很多网站不支持一键下载,可以使用山垦网页TXT采集器自动采集和下载!
山垦网页TXT采集器介绍知识兔
喜欢本地下载,慢慢看,但是很多小说网站不支持下载,或者【非VIP小说】有限制下载。我也在论坛里找到了一些采集器,但是我个人觉得不太好用,输入正则表达式后会出现章节,但是点击下载后无法下载文字。完成软件后,我继续测试它。同样的正则表达式,那些软件没有匹配内容,所以下载失败。. 也有可能是软件有一些我不知道的规则,结果却是无法完成我想要的下载。我什至不知道这是规则问题还是软件问题还是网站设置原因...
山垦网页TXT采集器使用教程知识兔
关于规则设置
1、输入网址后可以实时预览(不管有没有规则,规则就是匹配规则后的内容,没有就是源代码。目前不是所有的web pages可以获取到他们的内容,可以去自己的Experiment,如果可以获取到源代码,可以匹配内容)
2、内容页面和内容页面匹配不同的规则:
内容页面:
文字命名规则
作者姓名规则
章节规则(这里必须有两个()匹配章节路径,一个匹配章节名称)
内容页:
内容规则
3、关于替换:听
通用替换(非常规):所有规则将自动添加通用替换(通用替换规则)
自定义替换(非常规):单个 网站 的唯一替换规则
定期更换:尚未开发,请求奖励支持开发~~。
如果你想包装可用的内容并用\n替换它,\n是替换数据而不是原创数据。
您可以根据需要添加或删除。(需要原创数据和替换数据,并且需要一个空格,否则会抛出异常)
删除:选择一行并按 DELETE 删除
4、关于规则保存:
保存是根据文件名,不同的名字是不同的规则,最后以xml形式保存。
5、关于地理编码
解决地址1:测试没有被删除,以后会增加功能。
解析地址2:推荐使用
6、理论上,只要目录页指向内容页,就可以被爬取【如果能获取源代码】。请自己试一试。
关于文件
1、commonrule.xml 文件存储了常用的替换规则,
以 网站 为单位的规则存储在 2、rule 文件夹中。
如果需要直接复制单个规则放到rule文件夹中,可以使用规则,前提是xml文件格式正确,
3、其他
我还没想过你可能会遇到什么问题。如果您遇到问题,欢迎反馈。
最后附上匹配所有内容的常用表达式:
(.*?) 听([\w\W]*?) 听([\s\S]*?)
点击下载