网页文章自动采集(善肯网页TXT采集器使用教程知识兔关于规则设置的设置)

优采云发布时间: 2022-02-09 23:02

　　很多喜欢看小说的用户需要将小说下载到手机上，但是很多网站不支持一键下载，可以使用山垦网页TXT采集器自动采集和下载！

　　山垦网页TXT采集器介绍知识兔

　　喜欢本地下载，慢慢看，但是很多小说网站不支持下载，或者【非VIP小说】有限制下载。我也在论坛里找到了一些采集器，但是我个人觉得不太好用，输入正则表达式后会出现章节，但是点击下载后无法下载文字。完成软件后，我继续测试它。同样的正则表达式，那些软件没有匹配内容，所以下载失败。. 也有可能是软件有一些我不知道的规则，结果却是无法完成我想要的下载。我什至不知道这是规则问题还是软件问题还是网站设置原因...

　　山垦网页TXT采集器使用教程知识兔

　　关于规则设置

　　1、输入网址后可以实时预览（不管有没有规则，规则就是匹配规则后的内容，没有就是源代码。目前不是所有的web pages可以获取到他们的内容，可以去自己的Experiment，如果可以获取到源代码，可以匹配内容）

　　2、内容页面和内容页面匹配不同的规则：

　　内容页面：

　　文字命名规则

　　作者姓名规则

　　章节规则（这里必须有两个（）匹配章节路径，一个匹配章节名称）

　　内容页：

　　内容规则

　　3、关于替换：听

　　通用替换（非常规）：所有规则将自动添加通用替换（通用替换规则）

　　自定义替换（非常规）：单个网站的唯一替换规则

　　定期更换：尚未开发，请求奖励支持开发~~。

　　如果你想包装可用的内容并用\n替换它，\n是替换数据而不是原创数据。

　　您可以根据需要添加或删除。（需要原创数据和替换数据，并且需要一个空格，否则会抛出异常）

　　删除：选择一行并按 DELETE 删除

　　4、关于规则保存：

　　保存是根据文件名，不同的名字是不同的规则，最后以xml形式保存。

　　5、关于地理编码

　　解决地址1：测试没有被删除，以后会增加功能。

　　解析地址2：推荐使用

　　6、理论上，只要目录页指向内容页，就可以被爬取【如果能获取源代码】。请自己试一试。

　　关于文件

　　1、commonrule.xml 文件存储了常用的替换规则，

　　以网站为单位的规则存储在 2、rule 文件夹中。

　　如果需要直接复制单个规则放到rule文件夹中，可以使用规则，前提是xml文件格式正确，

　　3、其他

　　我还没想过你可能会遇到什么问题。如果您遇到问题，欢迎反馈。

　　最后附上匹配所有内容的常用表达式：

　　(.*?) 听([\w\W]*?) 听([\s\S]*?)

　　点击下载

0

2022-02-09

网页文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页文章自动采集(善肯网页TXT采集器使用教程知识兔关于规则设置的设置)

0 个评论

发起人

AI时代内容工厂

网页文章自动采集(善肯网页TXT采集器使用教程知识兔关于规则设置的设置)

0 个评论

发起人

相关问题