php用正则表达抓取网页中文章(滁州学院官网获取信息如何使用Simple-Html-Dom来解析 )

优采云 发布时间: 2022-01-03 00:06

  php用正则表达抓取网页中文章(滁州学院官网获取信息如何使用Simple-Html-Dom来解析

)

  获取网页源码中的指定内容需要使用正则表达式!正则表达式让我措手不及,因为我之前没有接触过它们,而且很难使用!

  在Java中,有Daniel打包的库,我用的是Jsoup。在项目中引入Jsuop的Jar包,指定唯一标签,然后使用选择器解析数据。最近接触PHP,感觉就像用PHP解析新闻一样好玩! Jsoup分析滁州学院官网获取信息列表

  我之前说过,正常的方式是使用正则表达式来获取数据!工作久了,真的控制不住!再怎么学习,鸡蛋也没有用!

  最后,我通过谷歌搜索引擎搜索了一篇文章。 文章、文章介绍了几种调用PHP文件解析HTML的方法。上帝帮助我!

  文章 以后会转贴发布,因为我发现的也是Biren通过“reposter”发布的。既然很好用,我就带过来!

  昨天在尴尬百科首页用Simple-Html-Dom.php文件分析了尴尬,每15分钟定时搞定!因为刚接触PHP,就在昨天11:30断网前把代码贴在了SAE上。有点担心代码不能正常运行。毕竟,我对 PHP 一无所知!

  今天早上起来看看数据库

  太酸了,数据太多,太多没用,我关闭了收购!

  说说如何使用Simple-Html-Dom解析HTML(小弟接触PHP不到两天)。看到了嘿嘿一笑,最好给点建议,不要喷,怕被喷!

  1、下载 Simple-Html-Dom 压缩文件

  到官网()下载压缩文件;

  2、解压文件

  解压文件,你会发现以下文件

  需要用到的方法基本都在demo里面了,看你怎么用了。

  看下面的代码,你会发现如何导入php文件和方法

  // 如何使用基本选择器检索 HTML 内容的示例

  include('../simple_html_dom.php');//引入php核心文件,注意路径,不要搞错

  // 从 URL 或文件中获取 DOM

  $html = file_get_html('#39;);

  // 查找所有链接

  foreach($html->find('a') as $e)

  echo $e->href.'

  ';

  // 查找所有图片

  foreach($html->find('img') as $e)

  echo $e->src.'

  ';

  // 查找带有完整标签的所有图像

  foreach($html->find('img') as $e)

  echo $e->outertext.'

  ';

  // 查找所有 id=gbar 的 div 标签

  foreach($html->find('div#gbar') as $e)

  echo $e->innertext.'

  ';

  // 查找 class=gb1 的所有 span 标签

  foreach($html->find('span.gb1') as $e)

  echo $e->outertext.'

  ';

  // 查找所有具有属性 align=center 的 td 标签

  foreach($html->find('td[align=center]') as $e)

  echo $e->innertext.'

  ';

  //从表格中提取文本

  echo $html->find('td[align="center"]', 1)->plaintext.'

  ';

  // 从 HTML 中提取文本

  echo $html->纯文本;

  还有这个 php 文件 // 如何使用高级选择器功能的示例

  include('../simple_html_dom.php');

  // ----------------------------------------- --------------------------------

  //后代选择器

  $str = find('div div div', 0)->innertext.'

  '; // 结果:“ok”

  // ----------------------------------------- --------------------------------

  // 嵌套选择器

  $str = find('ul') as $ul) {

  foreach($ul->find('li') as $li)

  echo $li->innertext.'

  ';

  }

  // ----------------------------------------- --------------------------------

  //解析复选框

  $str = find('input[type=checkbox]') as $checkbox) {

  if ($checkbox->checked)

  echo $checkbox->name。 '被检查

  ';

  其他

  echo $checkbox->name。 '未检查

  ';

  }

  这个demo讲解的比较详细,虽然简洁但不简单!有兴趣的可以下载运行试试

  获取网页源码中的指定内容需要使用正则表达式!正则表达式让我措手不及,因为我之前没有接触过它们,而且很难使用!

  在Java中,有Daniel打包的库,我用的是Jsoup。在项目中引入Jsuop的Jar包,指定唯一标签,然后使用选择器解析数据。最近接触PHP,感觉就像用PHP解析新闻一样好玩! Jsoup分析滁州学院官网获取信息列表

  我之前说过,正常的方式是使用正则表达式来获取数据!工作久了,真的控制不住!再怎么学习,鸡蛋也没有用!

  最后,我通过谷歌搜索引擎搜索了一篇文章。 文章、文章介绍了几种调用PHP文件解析HTML的方法。上帝帮助我!

  文章 以后会转贴发布,因为我发现的也是Biren通过“reposter”发布的。既然很好用,我就带过来!

  昨天在尴尬百科首页用Simple-Html-Dom.php文件分析了尴尬,每15分钟定时搞定!因为刚接触PHP,就在昨天11:30断网前把代码贴在了SAE上。有点担心代码不能正常运行。毕竟,我对 PHP 一无所知!

  今天早上起来看看数据库

  太酸了,数据太多,太多没用,我关闭了收购!

  说说如何使用Simple-Html-Dom解析HTML(小弟接触PHP不到两天)。看到了嘿嘿一笑,最好给点建议,不要喷,怕被喷!

  1、下载 Simple-Html-Dom 压缩文件

  到官网()下载压缩文件;

  2、解压文件

  解压文件,你会发现以下文件

  需要用到的方法基本都在demo里面了,看你怎么用了。

  看下面的代码,你会发现如何导入php文件和方法//示例如何使用基本选择器检索HTML内容

  include('../simple_html_dom.php');//引入php核心文件,注意路径,不要搞错

  // 从 URL 或文件中获取 DOM

  $html = file_get_html('#39;);

  // 查找所有链接

  foreach($html->find('a') as $e)

  echo $e->href.'

  ';

  // 查找所有图片

  foreach($html->find('img') as $e)

  echo $e->src.'

  ';

  // 查找带有完整标签的所有图像

  foreach($html->find('img') as $e)

  echo $e->outertext.'

  ';

  // 查找所有 id=gbar 的 div 标签

  foreach($html->find('div#gbar') as $e)

  echo $e->innertext.'

  ';

  // 查找 class=gb1 的所有 span 标签

  foreach($html->find('span.gb1') as $e)

  echo $e->outertext.'

  ';

  // 查找所有具有属性 align=center 的 td 标签

  foreach($html->find('td[align=center]') as $e)

  echo $e->innertext.'

  ';

  //从表格中提取文本

  echo $html->find('td[align="center"]', 1)->plaintext.'

  ';

  // 从 HTML 中提取文本

  echo $html->纯文本;

  还有这个 php 文件 // 如何使用高级选择器功能的示例

  include('../simple_html_dom.php');

  // ----------------------------------------- --------------------------------

  //后代选择器

  $str = find('div div div', 0)->innertext.'

  '; // 结果:“ok”

  // ----------------------------------------- --------------------------------

  // 嵌套选择器

  $str = find('ul') as $ul) {

  foreach($ul->find('li') as $li)

  echo $li->innertext.'

  ';

  }

  // ----------------------------------------- --------------------------------

  //解析复选框

  $str = find('input[type=checkbox]') as $checkbox) {

  if ($checkbox->checked)

  echo $checkbox->name。 '被检查

  ';

  其他

  echo $checkbox->name。 '未检查

  ';

  }

  这个demo讲解的比较详细,虽然简洁但不简单!有兴趣的可以下载运行试试

  文件下载

  请我喝杯咖啡 :)

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线