js抓取网页内容(有什么办法能防止搜索引擎抓取网站?对内容使用JavaScript)

优采云 发布时间: 2021-10-27 22:19

  js抓取网页内容(有什么办法能防止搜索引擎抓取网站?对内容使用JavaScript)

  1、有什么办法可以防止搜索引擎爬取网站?

  第一种方法:robots.txt方法

  网站根目录下有robots.txt。如果没有,您可以创建一个新的并上传。

  用户代理: *

  不允许: /

  禁止所有搜索引擎访问网站的所有部分

  用户代理: *

  禁止:/css/

  禁止:/管理员/

  禁止所有搜索引擎访问css和admin目录,只需将css或admin目录修改为你指定的文件目录或文件即可。

  第二种:网页编码方式

  中间添加代码,该标签禁止搜索引擎抓取网站并显示网页快照。

  注意:添加了禁止码,但是搜索引擎还是可以搜索到的,因为搜索引擎索引库的更新需要时间。虽然百度蜘蛛已经停止访问您在网站上的网页,但清除百度搜索引擎数据库中已建立网页的索引信息可能需要几个月的时间。

  二、搜索引擎可以抓取JS吗?

  1、 JS的内容是不爬取的,但是Google会抓到JS分析,但是有的已经能够在javecipt脚本上获取到链接,甚至执行脚本并跟踪链接。其实javascript因素还是flash 网站 ,这种做法给搜索引擎的收录和index.js带来了麻烦。所以,如果不是期望被拒绝,最直接的方法就是写robots文件。

  2、部分超链接的导航能力完全由Javascript模拟。例如,在 HTML A 元素中添加一段 onclick 事件处理代码。当点击超链接时,会有页面导航的Javascript代码;

  3、部分页面显示的多级菜单是用Javascript实现的,菜单的显示和消失由Javascript控制。如果这些菜单所激发的操作是导航到另一个页面,那么导航信息就很难被抓取 Grab

  4、切勿使用 JavaScript 进行导航和其他链接。导航和链接是搜索引擎抓取网页的基础。如果搜索引擎无法抓取网页,则意味着该网页不会出现在索引结果中,也就无从谈起排名。尽量避免对内容使用 JavaScript。尤其是与关键词相关的内容,要尽量避免使用JavaScript来展示,否则无疑会减少。

  5、 真正需要用到JavaScript的部分,把这部分JavaScript脚本放在一个或几个.js文件中,以免干扰搜索引擎的抓取和分析

  .js 文件中确实放不下的一些 JavaScript 脚本,放在底部,</body> 之前,以便搜索引擎在分析网页时找到,减少对搜索引擎的干扰

  6、由于普通搜索引擎很难处理Javascript代码,所以可以利用这个功能来屏蔽页面上一些不需要被搜索引擎索引的内容,从而对页面进行改进。这类信息可以称为“垃圾信息”,例如广告、版权声明、大量与内容无关的信息等,这些垃圾信息可以扔到一个或多个.js文件中,从而减少干扰到页面的实际内容,改进和展示页面内容的核心给搜索引擎。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线