苹果cms火车头规则写法教程
优采云 发布时间: 2020-04-25 11:03每页地址都采集完毕后,每页上都有10篇(有兴趣可以去数一数)文章,现在我们要获取每页上的那些文章地址。通过查看源代码后,发现这种文章地址在h2标签的href属性中找到,根据唯一性的原则,代码:<h2><a target=”_blank” href=” 一共只有10个,正好对应页面上的10篇文章地址,在多级网址处点击添加,选择【手动填写链接地址规则】,填写如下方式并保存。其中“[参数]”代替的就是我们要找的地址,下面的[参数1]指的就是里面的[参数]。如果你了解正则表达式,会更好理解这种含意。
因为有的网站会严禁我们采集,我们可以利用这一功能来模拟正常浏览器浏览,欺骗网站。只须要点击【浏览器登陆获取】,在跳出窗口上的地址栏处填写本博客地址:,然后点击确定,软件能够手动记录cookie值和浏览器标示。
最后我们来测试一下里面的采集网址的规则是否正确,点击右下角【测试网址采集】,我们能看到一共有13个页脚地址,每页地址下都有10个地址,这些就是地址就是文章地址。
采集完地址后,我们就要对具体整篇文章地址下的文章做“文章”了。将标签切换到“第二步:采集内容规则”,我们以这篇文章为例:,来获取我们想要的内容,包括:文章标题、发表时间、作者、浏览次数、文章内容、文章分类等。查看网页源代码,如果你能懂html就挺好理解。我们发觉文章标题:分享一款在线音乐播放器,界面漂亮 前面有如此一串代码: <h1 class=”article-title“>,正好这串代码在源代码中惟一存在火车头采集教程,我们可以使用它来确定文章标题。规则写法如下: