网页文章自动采集(善肯网页TXT采集器使用教程知识兔关于规则设置的设置)

优采云 发布时间: 2022-02-09 23:02

  网页文章自动采集(善肯网页TXT采集器使用教程知识兔关于规则设置的设置)

  很多喜欢看小说的用户需要将小说下载到手机上,但是很多网站不支持一键下载,可以使用山垦网页TXT采集器自动采集和下载!

  

  山垦网页TXT采集器介绍知识兔

  喜欢本地下载,慢慢看,但是很多小说网站不支持下载,或者【非VIP小说】有限制下载。我也在论坛里找到了一些采集器,但是我个人觉得不太好用,输入正则表达式后会出现章节,但是点击下载后无法下载文字。完成软件后,我继续测试它。同样的正则表达式,那些软件没有匹配内容,所以下载失败。. 也有可能是软件有一些我不知道的规则,结果却是无法完成我想要的下载。我什至不知道这是规则问题还是软件问题还是网站设置原因...

  山垦网页TXT采集器使用教程知识兔

  关于规则设置

  1、输入网址后可以实时预览(不管有没有规则,规则就是匹配规则后的内容,没有就是源代码。目前不是所有的web pages可以获取到他们的内容,可以去自己的Experiment,如果可以获取到源代码,可以匹配内容)

  2、内容页面和内容页面匹配不同的规则:

  内容页面:

  文字命名规则

  作者姓名规则

  章节规则(这里必须有两个()匹配章节路径,一个匹配章节名称)

  内容页:

  内容规则

  3、关于替换:听

  通用替换(非常规):所有规则将自动添加通用替换(通用替换规则)

  自定义替换(非常规):单个 网站 的唯一替换规则

  定期更换:尚未开发,请求奖励支持开发~~。

  如果你想包装可用的内容并用\n替换它,\n是替换数据而不是原创数据。

  您可以根据需要添加或删除。(需要原创数据和替换数据,并且需要一个空格,否则会抛出异常)

  删除:选择一行并按 DELETE 删除

  4、关于规则保存:

  保存是根据文件名,不同的名字是不同的规则,最后以xml形式保存。

  5、关于地理编码

  解决地址1:测试没有被删除,以后会增加功能。

  解析地址2:推荐使用

  6、理论上,只要目录页指向内容页,就可以被爬取【如果能获取源代码】。请自己试一试。

  关于文件

  1、commonrule.xml 文件存储了常用的替换规则,

  以 网站 为单位的规则存储在 2、rule 文件夹中。

  如果需要直接复制单个规则放到rule文件夹中,可以使用规则,前提是xml文件格式正确,

  3、其他

  我还没想过你可能会遇到什么问题。如果您遇到问题,欢迎反馈。

  最后附上匹配所有内容的常用表达式:

  (.*?) 听([\w\W]*?) 听([\s\S]*?)

  点击下载

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线