php用正则表达抓取网页中文章(滁州学院官网获取信息如何使用Simple-Html-Dom来解析 )
优采云 发布时间: 2022-01-03 00:06php用正则表达抓取网页中文章(滁州学院官网获取信息如何使用Simple-Html-Dom来解析
)
获取网页源码中的指定内容需要使用正则表达式!正则表达式让我措手不及,因为我之前没有接触过它们,而且很难使用!
在Java中,有Daniel打包的库,我用的是Jsoup。在项目中引入Jsuop的Jar包,指定唯一标签,然后使用选择器解析数据。最近接触PHP,感觉就像用PHP解析新闻一样好玩! Jsoup分析滁州学院官网获取信息列表
我之前说过,正常的方式是使用正则表达式来获取数据!工作久了,真的控制不住!再怎么学习,鸡蛋也没有用!
最后,我通过谷歌搜索引擎搜索了一篇文章。 文章、文章介绍了几种调用PHP文件解析HTML的方法。上帝帮助我!
文章 以后会转贴发布,因为我发现的也是Biren通过“reposter”发布的。既然很好用,我就带过来!
昨天在尴尬百科首页用Simple-Html-Dom.php文件分析了尴尬,每15分钟定时搞定!因为刚接触PHP,就在昨天11:30断网前把代码贴在了SAE上。有点担心代码不能正常运行。毕竟,我对 PHP 一无所知!
今天早上起来看看数据库
太酸了,数据太多,太多没用,我关闭了收购!
说说如何使用Simple-Html-Dom解析HTML(小弟接触PHP不到两天)。看到了嘿嘿一笑,最好给点建议,不要喷,怕被喷!
1、下载 Simple-Html-Dom 压缩文件
到官网()下载压缩文件;
2、解压文件
解压文件,你会发现以下文件
需要用到的方法基本都在demo里面了,看你怎么用了。
看下面的代码,你会发现如何导入php文件和方法
// 如何使用基本选择器检索 HTML 内容的示例
include('../simple_html_dom.php');//引入php核心文件,注意路径,不要搞错
// 从 URL 或文件中获取 DOM
$html = file_get_html('#39;);
// 查找所有链接
foreach($html->find('a') as $e)
echo $e->href.'
';
// 查找所有图片
foreach($html->find('img') as $e)
echo $e->src.'
';
// 查找带有完整标签的所有图像
foreach($html->find('img') as $e)
echo $e->outertext.'
';
// 查找所有 id=gbar 的 div 标签
foreach($html->find('div#gbar') as $e)
echo $e->innertext.'
';
// 查找 class=gb1 的所有 span 标签
foreach($html->find('span.gb1') as $e)
echo $e->outertext.'
';
// 查找所有具有属性 align=center 的 td 标签
foreach($html->find('td[align=center]') as $e)
echo $e->innertext.'
';
//从表格中提取文本
echo $html->find('td[align="center"]', 1)->plaintext.'
';
// 从 HTML 中提取文本
echo $html->纯文本;
还有这个 php 文件 // 如何使用高级选择器功能的示例
include('../simple_html_dom.php');
// ----------------------------------------- --------------------------------
//后代选择器
$str = find('div div div', 0)->innertext.'
'; // 结果:“ok”
// ----------------------------------------- --------------------------------
// 嵌套选择器
$str = find('ul') as $ul) {
foreach($ul->find('li') as $li)
echo $li->innertext.'
';
}
// ----------------------------------------- --------------------------------
//解析复选框
$str = find('input[type=checkbox]') as $checkbox) {
if ($checkbox->checked)
echo $checkbox->name。 '被检查
';
其他
echo $checkbox->name。 '未检查
';
}
这个demo讲解的比较详细,虽然简洁但不简单!有兴趣的可以下载运行试试
获取网页源码中的指定内容需要使用正则表达式!正则表达式让我措手不及,因为我之前没有接触过它们,而且很难使用!
在Java中,有Daniel打包的库,我用的是Jsoup。在项目中引入Jsuop的Jar包,指定唯一标签,然后使用选择器解析数据。最近接触PHP,感觉就像用PHP解析新闻一样好玩! Jsoup分析滁州学院官网获取信息列表
我之前说过,正常的方式是使用正则表达式来获取数据!工作久了,真的控制不住!再怎么学习,鸡蛋也没有用!
最后,我通过谷歌搜索引擎搜索了一篇文章。 文章、文章介绍了几种调用PHP文件解析HTML的方法。上帝帮助我!
文章 以后会转贴发布,因为我发现的也是Biren通过“reposter”发布的。既然很好用,我就带过来!
昨天在尴尬百科首页用Simple-Html-Dom.php文件分析了尴尬,每15分钟定时搞定!因为刚接触PHP,就在昨天11:30断网前把代码贴在了SAE上。有点担心代码不能正常运行。毕竟,我对 PHP 一无所知!
今天早上起来看看数据库
太酸了,数据太多,太多没用,我关闭了收购!
说说如何使用Simple-Html-Dom解析HTML(小弟接触PHP不到两天)。看到了嘿嘿一笑,最好给点建议,不要喷,怕被喷!
1、下载 Simple-Html-Dom 压缩文件
到官网()下载压缩文件;
2、解压文件
解压文件,你会发现以下文件
需要用到的方法基本都在demo里面了,看你怎么用了。
看下面的代码,你会发现如何导入php文件和方法//示例如何使用基本选择器检索HTML内容
include('../simple_html_dom.php');//引入php核心文件,注意路径,不要搞错
// 从 URL 或文件中获取 DOM
$html = file_get_html('#39;);
// 查找所有链接
foreach($html->find('a') as $e)
echo $e->href.'
';
// 查找所有图片
foreach($html->find('img') as $e)
echo $e->src.'
';
// 查找带有完整标签的所有图像
foreach($html->find('img') as $e)
echo $e->outertext.'
';
// 查找所有 id=gbar 的 div 标签
foreach($html->find('div#gbar') as $e)
echo $e->innertext.'
';
// 查找 class=gb1 的所有 span 标签
foreach($html->find('span.gb1') as $e)
echo $e->outertext.'
';
// 查找所有具有属性 align=center 的 td 标签
foreach($html->find('td[align=center]') as $e)
echo $e->innertext.'
';
//从表格中提取文本
echo $html->find('td[align="center"]', 1)->plaintext.'
';
// 从 HTML 中提取文本
echo $html->纯文本;
还有这个 php 文件 // 如何使用高级选择器功能的示例
include('../simple_html_dom.php');
// ----------------------------------------- --------------------------------
//后代选择器
$str = find('div div div', 0)->innertext.'
'; // 结果:“ok”
// ----------------------------------------- --------------------------------
// 嵌套选择器
$str = find('ul') as $ul) {
foreach($ul->find('li') as $li)
echo $li->innertext.'
';
}
// ----------------------------------------- --------------------------------
//解析复选框
$str = find('input[type=checkbox]') as $checkbox) {
if ($checkbox->checked)
echo $checkbox->name。 '被检查
';
其他
echo $checkbox->name。 '未检查
';
}
这个demo讲解的比较详细,虽然简洁但不简单!有兴趣的可以下载运行试试
文件下载
请我喝杯咖啡 :)