php如何抓取网页内容(两种方法获取网站的meta信息,第一种方法是使用get )
优采云 发布时间: 2021-10-01 10:17php如何抓取网页内容(两种方法获取网站的meta信息,第一种方法是使用get
)
在网页采集的过程中,我们需要获取网站的元信息,如标题、关键字、描述等。本文章介绍了获取网站元信息的两种方法。第一种方法是使用get_uMeta_uTags函数,第二种方法是使用正则表达式匹配方法来获取
1:使用get_uMeta_uu标记函数获取元信息
例如,如果我们想要获取这个网页的元信息,我们可以直接使用PHP内置函数get_u;meta_uu_u标签。代码如下:
2:使用正则表达式获取元信息
PHP代码如下所示:
<p>$site = "http://www.ub07.com";
$content = get_sitemeta($site);
print_r($content);
/** 获取META信息 */
function get_sitemeta($url) {
$data = file_get_contents($url);
$meta = array();
if (!empty($data)) {
#Title
preg_match('/([\w\W]*?)/si', $data, $matches);
if (!empty($matches[1])) {
$meta['title'] = $matches[1];
}
#Keywords
preg_match('/