核心方法:Domain采集器(Domains域名采集工具)
优采云 发布时间: 2022-10-08 08:26核心方法:Domain采集器(Domains域名采集工具)
Domain采集器是一个简单好用的域名采集工具,可以很方便的查询一个域名的注册详情,可以帮你轻松完成各种域名采集 ,有需要就来绿色资源网下载使用吧。
使用说明:
在 关键词 字段中输入您想要 采集 的单词。
单击开始采集 以执行此操作。
采集作业完成后,域名将自动导出到域结果文件夹。
软件功能
【自动计时采集】
采集任务自动运行,可以按指定周期自动采集,也支持一分钟实时采集。
【2分钟快速入门】
内置从入门到精通的视频教程,2分钟即可上手,此外还有文档、论坛、QQ群等。
【免费使用】
它是免费的,免费版没有功能限制,您可以立即试用,立即下载安装。
提取密码:
解决方案:WordPress自动采集发布插件WP-AutoPost使用教程
让我们以采集“新浪网讯”为例,文章列表URL是这样,请在手动指定文章列表URL中输入URL,如下所示:
之后,您需要在文章列表URL下为特定URL设置匹配规则文章
5. 文章网址匹配规则
文章URL匹配规则的设置非常简单,没有复杂的设置,提供了两种匹配模式,可以使用URL通配符匹配,也可以使用CSS选择器进行匹配,通常使用URL通配符匹配比较简单。
1. 使用 URL 通配符匹配
通过单击文章
在列表URL上,我们可以发现每个文章的URL的结构如下
因此,将 URL 中不断变化的数字或字母替换为通配符 (*) 就足够了,例如:(*)/(*).shtml
2. 使用 CSS 选择器进行匹配
使用CSS选择器进行匹配,我们只需要设置文章URL的CSS选择器
(不知道CSS选择器是什么,一分钟内学习如何设置CSS选择器),通过查看列表URL的源代码可以很容易地设置,找到代码文章列表URL下的超链接,如下所示:
如您所见,一个标签文章超链接位于类为“contList”的 标签内,因此 CSS 选择器文章 URL 只需要设置为 .contList a,如下所示:
之后的设置是
完成,不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,列表URL下的所有文章名称和对应的页面地址都会列出,如下所示:
6. 文章抓取设置
在这个标签下,我们需要为文章标题和文章内容设置匹配规则,提供两种设置方式,建议使用CSS选择器方法,更简单,更精确。(不知道什么是CSS选择器,学习如何在一分钟内设置CSS选择器。
我们只需要设置文章标题CSS选择器并文章内容
CSS 选择器,用于准确抓取文章标题和文章内容。
在文章源设置中,我们
以采集《新浪网讯》为例,这里还是要解释一下的例子,通过查看列表URL的下一文章可以轻松设置源代码,例如,我们可以查看特定文章的源代码,如下所示:
如您所见,文章标题位于id为“artibodyTitle”的标签内,因此文章标题CSS选择器只需要设置为#artibodyTitle;
同样,查找文章内容的代码:
如您所见,文章内容位于id为“artibody”的标签内,因此文章内容CSS选择器只需要设置为#artibody;如下所示
设置后
完成后,不知道设置是否正确,可以点击测试按钮,输入测试地址,如果设置正确,将显示文章标题和文章内容,方便检查设置
7. 抓取文章分页内容
如果文章内容是
太长了,有多个分页也可以抓取所有内容,那么你需要设置文章分页链接CSS选择器,通过查看具体的文章URL源代码,找到分页链接的地方,比如文章分页链接代码如下:
如您所见,分页链接 A 标记位于类为“页面链接”的 标记内
因此,文章分页链接 CSS 选择器设置为 .page-link a,如下所示:
如果您检查 当发布也分页时,文章也将被分页,如果您的WordPress主题不支持标签,请不要勾选。
8. 文章内容过滤功能
文章内容过滤功能,可以过滤掉正文中不想发布的内容(如广告代码、版权信息等),可以设置两关键词,删除两关键词之间的内容,关键词2可以为空,表示关键词1后的所有内容都将被删除。
如下图所示,我们发现文章中有我们不想发布的内容,经过测试爬行文章,切换到HTML显示,找到内容的HTML代码,并设置两关键词来过滤掉内容。
如上所示,如果我们想过滤掉上面的内容
和
将以下设置添加到内容中
如果需要筛选出多个位置,可以添加多组设置。
9.HTML标签过滤功能
HTML标签过滤功能,用于过滤掉采集文章中的超链接(标签)