js 抓取网页内容(iframe“必须要用iframe的时候”,如何躲过搜索引擎?)
优采云 发布时间: 2022-03-16 05:16js 抓取网页内容(iframe“必须要用iframe的时候”,如何躲过搜索引擎?)
前言:很多博主不仔细阅读内容直接认为使用iframe不好,但其实这篇文章是教大家在必须使用iframe的情况下,如何避免搜索引擎的爬取,从而避免对SEO不利的情况!
那么,什么是“何时必须使用 iframe”?举个简单的例子:一些主题分享网站,很多时候会使用iframe框架调用主题作者的网站做主题展示。这时候就会产生大量的iframe框架,那么本文中的方法就派上用场了!
简介:对seo稍有了解的站长应该都知道,爬虫不喜欢iframe或者frame,因为蜘蛛在访问一个网站时抓取的html是调用其他网页的html文件的代码,不收录任何文本内容. 也就是说,你的网页内容是什么,蜘蛛无法弄清楚。有人可能会说,搜索引擎蜘蛛也可以跟踪需要抓取的 HTML 文件。是的,可以跟踪抓取,但是跟踪这部分内容通常不是完整的页面。搜索引擎无法判断哪一部分是主框架,哪一部分是被调用文件。随着搜索技术的发展,这个问题可能并不总是可以解决,但是这么多网站蜘蛛不会因为你们一个网站而烦恼。所以,
从使用iframe调用快递100进行快递查询,到自己发起互推联盟的iframe调用代码,张歌对iframe这个东西有点了解。
记得,在互推联盟推出自适应iframe代码时,冯耀宗博主曾这样评论:,
后来一次偶然的测试让我顿悟,想到用JS封装iframe,避免搜索引擎的爬取。当时我正在测试用 JS 封装 CSS 代码,想简单加密自己的劳动成果。不想,突然想到,既然JS可以输出CSS,那JS应该也能输出iframe吧!实际测试发现我的想法是可行的!通过JS输出iframe代码可以完美的达到直接调用iframe代码的效果!
下面以互促联盟为例,公布方法:
张哥最先推出的iframe自适应调用代码如下:
现在,张哥将讲解如何用JS代码封装这个iframe,制作一个js版本:
首先,新建一个JS文件,在里面输入以下内容并保存:
括号是原创 iframe 的内容。需要注意的是开头和结尾都是双引号,iframe需要改成单引号!否则无法输出!
document.write("");
然后,将这个js文件上传到服务器
比如互推联盟调用的js的最终地址为:
最后,在要调用 iframe 的地方写下如下语句
如果存在旧的 iframe 代码,请直接替换。如果发现界面不理想,请在第二步编辑js文件调整iframe大小。
这样就完美实现了原本直接用iframe框架调用的效果。
接下来,张哥来衡量一下避开搜索爬虫的效果:
① 打开站长工具的搜索蜘蛛和机器人模拟爬虫:
② 进入用JS部署iframe代码的页面,如MOREOPEN博客调用的互推联盟页面:
③如图所示,这个页面有很多外部链接。如果不做任何处理,蜘蛛肯定可以爬到这个 iframe 上。
但是经过JS封装后,会得到如下爬取结果:
如上图,结果中没有页面互助联盟的内容,印证了这种方法的可行性!当然,有兴趣的站长也可以使用自己的网站亲自测试一下效果。
最后,总结一下“国际惯例”的风格如下:
综上所述,事实证明,通过JS封装iframe代码,确实可以完美欺骗搜索引擎的爬取,让鱼与熊掌之间的选择不再难!
而且,没有外链输出,没有减重,这也是张哥博客的通用互助联盟页面被众多站长调用的重要原因之一!很多博主可能会认为张格隆从这个互助联盟中赚了不少外链,其实不然!在这里张哥必须澄清一下,JS调用的互推联盟根本不会成为张哥博客的外链!不信可以用工具测试被调用的页面就知道了!