phpcms 采集使用讲解与注意事项
优采云 发布时间: 2020-08-19 17:14phpcms 采集使用讲解与注意事项
同理。
2.在内容规则中输入采集内容的办法
默认是[内容],采集到的是财经新闻滚动_搜狐资讯-搜狐滚动
因此我们用文章中出现的
全国成品油价格指数创最大跌幅
作为标题来采集,[内容]可以可靠地得到标题。
最重要的是下边的内容规则,这关系到文章的内容能够正确地采集到。
同上,我们要对所要采集的目标网页进行剖析。
如图示是文章内容开始的地方,在下边可以看见,文章结束后有一个
因此就这样设置
[内容]
即可采集到内容,在两侧还有过滤选项,不要看这上面输入的十分麻烦,点击选择,会弹出一个框,进行选择,这里将不需要的脚本给过滤掉。
3.进行测试
点击测试,显示采集到的网址。
右侧有查看,点击可以看采集的内容。
采集的内容,如果出错,则内容或标题为空。
4.设置好之后,就可以进行采集网址,采集内容,导入内容了
在导出的时侯要设置导出选项,这个比较简单你们肯定还会。
5.注意事项。
(1)采集经常会失败,就是哪些都没采集到。 因为目标网页很复杂,所以尽量选择干净的网页去采集。设置的采集规则要尽量通用。
(2)重要!!!坑爹的phpcms在这个地方有个bug,如果第一次成功采集,第二次再进行采集的时侯会出现
V9第二次采集时出现“没有找到网址列表,请先进行网址采集“的问题。
解决方案请见:
摘抄如下:如果出现些问题,用MYSQL管理工具,清除v9_采集_history这个表的所有内容即可。
不过还有一个小技巧就是,因为你采集一次之后,导出内容后,这些内容就没有啥用了,可以删掉了,如果你在后台一页一页删掉实在是太麻烦了,也可以直接删掉 v9_采集_content 这个表的所有内容即可。
还可以在已导出 中把已导出的全部删掉。
附一个导下来的规则,存到txt文件中,可以从后台导出使用。
eyJsYXN0ZGF0ZSI6IjE0MTUxOTMyMzUiLCJzb3VyY2VjaGFyc2V0IjoiZ2JrIiwic291cmNldHlwZSI6IjMiLCJ1cmxwYWdlIjoiaHR0cDpcL1wvcm9sbC5zb2h1LmNvbVwvbW9uZXlcLyIsInBhZ2VzaXplX3N0YXJ0IjoiMSIsInBhZ2VzaXplX2VuZCI6IjEwIiwicGFnZV9iYXNlIjoiIiwicGFyX251bSI6IjEiLCJ1cmxfY29udGFpbiI6IiIsInVybF9leGNlcHQiOiJodHRwOlwvXC9yb2xsLnNvaHUuY29tXC9tb25leVwvIiwidXJsX3N0YXJ0IjoiPGRpdiBjbGFzcz1cImxpc3QxNFwiPiIsInVybF9lbmQiOiI8ZGl2IGNsYXNzPVwicGFnZXNcIj4iLCJ0aXRsZV9ydWxlIjoiPGgxIGl0ZW1wcm9wPVwiaGVhZGxpbmVcIj5bXHU1MTg1XHU1YmI5XTxcL2gxPiIsInRpdGxlX2h0bWxfcnVsZSI6IiIsImF1dGhvcl9ydWxlIjoiIiwiYXV0aG9yX2h0bWxfcnVsZSI6IiIsImNvbWVmb3JtX3J1bGUiOiIiLCJjb21lZm9ybV9odG1sX3J1bGUiOiIiLCJ0aW1lX3J1bGUiOiIiLCJ0aW1lX2h0bWxfcnVsZSI6IiIsImNvbnRlbnRfcnVsZSI6IjwhLS0gXHU2YjYzXHU2NTg3IC0tPltcdTUxODVcdTViYjldXHJcbjwhLS0gXHU1MjA2XHU0ZWFiIC0tPiIsImNvbnRlbnRfaHRtbF9ydWxlIjoiPHNjcmlwdChbXj5dKik+KC4qKTxcL3NjcmlwdD5bfF1cclxuIiwiY29udGVudF9wYWdlX3N0YXJ0IjoiIiwiY29udGVudF9wYWdlX2VuZCI6IiIsImNvbnRlbnRfcGFnZV9ydWxlIjoiMSIsImNvbnRlbnRfcGFnZSI6IjEiLCJjb250ZW50X25leHRwYWdlIjoiIiwiZG93bl9hdHRhY2htZW50IjoiMCIsIndhdGVybWFyayI6IjAiLCJjb2xsX29yZGVyIjoiMSIsImN1c3RvbWl6ZV9jb25maWciOiJhcnJheSAoXG4pIn0=
大概是用base64编码的规则吧。你可以导出后再进行一点个人的更改。