如何抓取网页数据(大多数开发人员怎么提取屏幕抓取器下载页面下载html页面内容)

优采云 发布时间: 2022-01-14 08:11

  如何抓取网页数据(大多数开发人员怎么提取屏幕抓取器下载页面下载html页面内容)

  当没有人为您提供合理的机器可读界面时,您会进行屏幕抓取。很难写,也很脆弱。

  不完全正确。当我说大多数开发人员没有足够的经验来编写像样的 API 时,我认为我并没有夸大其词。我曾与屏幕抓取公司合作过,API 经常有问题(从隐秘的错误到糟糕的结果)并且通常不提供 网站 提供的全部功能,因此屏幕抓取可能会更好(网络抓取,如果你愿意)。Extranet/网站portals 使用更多的客户端/代理,因此比 API 客户端得到更好的支持。在大公司中,很少更改外联网门户等,通常是因为它最初是外包的,现在只是维护。我更多地指的是自定义输出的屏幕抓取,例如特定路线和时间的航班、保险报价、运输报价等。

  它可以像web客户端一样简单,将页面内容拉成字符串,通过一系列正则表达式提取你想要的信息。

  string pageContents = new WebClient("www.stackoverflow.com").DownloadString();

int numberOfPosts = // regex match

  显然,在*敏*感*词*环境中,您将编写比上述更健壮的代码。

  屏幕抓取器下载 html 页面并通过搜索感兴趣的已知标签或将其解析为 XML 或类似的方式来提取数据。

  这是一种比正则表达式更简洁的方法...理论上...,但实际上并不那么容易,因为大多数文档需要在通过 XPath 之前被规范化为 XHTML,最后我们发现微调正则表达式更实用。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线