浏览器抓取网页(获取网页标题的方式是什么?怎么做?处理)

优采云 发布时间: 2022-03-26 02:16

  浏览器抓取网页(获取网页标题的方式是什么?怎么做?处理)

  作为标准的 HTML 文档,页面标题(title)是必不可少的属性。随着浏览器的发展,我们有了另一种访问和修改文档的方式:DOM。因此,获取网页标题有两种方式:

  通过文档对象访问title

  var title = document.title;通过 DOM 访问标题

  var title = document.getElementsByTagName('title')[0];但是这两种获取方式完全不同,document.title可以直接获取网页标题的字符串副本,它返回一个字符串;但是通过DOM获取的是HTML文档中的title节点对象。

  我们可以使用节点对象的innerHTML属性来输出页面标题:

  document.getElementsByTagName('title')[0].innerHTML;

  编辑页面标题

  这里我们讨论一下IE浏览器实现中的一个小bug:我们知道理论上HTML文档中的任何节点都可以通过DOM进行修改。按照这句话,我们当然可以修改HTML文档中的title节点。 但有趣的是,IE浏览器在这个地方实现了一些奇怪的东西,具体来说:

  Firefox 在这里完美运行。不过除了FF和IE,其他浏览器我没有测试过,有兴趣的朋友可以试试。 (估计会比IE表现更好^^)

  有一种说法,老方法不一定过时。存在多年的Document.title在这个时候就凸显了它的优势,因为这个属性不仅可以获取网页的标题,还可以修改标题。同时,HTML 文档节点中的标题也同步更新。所以:

  目前,对于 Internet Explorer,更改网页标题的唯一方法是使用过时的 document.title 方法。同时,此方法也适用于其他浏览器。

  结论

  在web开发中,如果要处理网页标题的问题,需要注意以下几点:

  最佳实践

  获取文档标题:var title = document.title;

  修改文档标题:document.title = "new title";

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线