浏览器抓取网页(获取网页标题的方式是什么?怎么做?处理)
优采云 发布时间: 2022-03-26 02:16浏览器抓取网页(获取网页标题的方式是什么?怎么做?处理)
作为标准的 HTML 文档,页面标题(title)是必不可少的属性。随着浏览器的发展,我们有了另一种访问和修改文档的方式:DOM。因此,获取网页标题有两种方式:
通过文档对象访问title
var title = document.title;通过 DOM 访问标题
var title = document.getElementsByTagName('title')[0];但是这两种获取方式完全不同,document.title可以直接获取网页标题的字符串副本,它返回一个字符串;但是通过DOM获取的是HTML文档中的title节点对象。
我们可以使用节点对象的innerHTML属性来输出页面标题:
document.getElementsByTagName('title')[0].innerHTML;
编辑页面标题
这里我们讨论一下IE浏览器实现中的一个小bug:我们知道理论上HTML文档中的任何节点都可以通过DOM进行修改。按照这句话,我们当然可以修改HTML文档中的title节点。 但有趣的是,IE浏览器在这个地方实现了一些奇怪的东西,具体来说:
Firefox 在这里完美运行。不过除了FF和IE,其他浏览器我没有测试过,有兴趣的朋友可以试试。 (估计会比IE表现更好^^)
有一种说法,老方法不一定过时。存在多年的Document.title在这个时候就凸显了它的优势,因为这个属性不仅可以获取网页的标题,还可以修改标题。同时,HTML 文档节点中的标题也同步更新。所以:
目前,对于 Internet Explorer,更改网页标题的唯一方法是使用过时的 document.title 方法。同时,此方法也适用于其他浏览器。
结论
在web开发中,如果要处理网页标题的问题,需要注意以下几点:
最佳实践
获取文档标题:var title = document.title;
修改文档标题:document.title = "new title";