php抓取网页指定内容(我已经使用PHP和cURL构建了一个简单的抓取工具)

优采云 发布时间: 2022-01-19 22:00

  php抓取网页指定内容(我已经使用PHP和cURL构建了一个简单的抓取工具)

  我已经使用 PHP 和 cURL 构建了一个简单的网络抓取工具,并通过 ID 抓取或通过所需元素上不存在 ID 的标签名称来抓取页面的一些元素,使用如下代码:

  $dom = new DOMDocument();

@$dom->loadHTML($response);

$table = $dom->getElementsByTagName('table')->item(4);

$response = $dom->saveXML($table);

  现在我陷入了两难境地,我需要更进一步,找到某个字符串或正则表达式模式的文本的父元素,因为我需要从中采集数据的站点没有任何 ID 或类我还需要从中提取数据的 HTML 元素 各种页面可能以不同的方式组织数据,所以我不能总是依赖表中的数据#。在我离开这个 网站 之后获取数据的唯一可靠方法是通过文本格式查找它,它始终是一个以“1”开头的数字列表。他们不使用有序列表,否则会简单得多。这只是一个简单的表格单元格,其数字线由简单的

  分开。所以我想如果我能找到“1”,它的父元素就是表格单元格,找到它之后,我需要提取它的内容,可能还有表格行中任何其他相邻表格单元格的内容。在页面或 HTML 代码中找不到“1.”的其他实例,所以这种方法似乎是合理的,如果不是有点冒险的话,但我离题了。那么,处理这样的事情的最佳方法是什么?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线