jquery抓取网页内容(如何判断正则表达式的更新数据没有?(图) )

优采云 发布时间: 2021-09-21 06:29

  jquery抓取网页内容(如何判断正则表达式的更新数据没有?(图)

)

  最近开发一个小功能,数据库中的基本表的数据从另一个网站采集

  因为网站数据已更新,需要更新自动采集最新内容。

  如何确定更新数据?

  在网站 @有一个更新日志提示的地方,只需比较了本地保留的更新日志和最新日志。

  Pages源代码的分析是一个难点,存在正则表达式。

  但我没有使用正则表达式。搜索开源库ScRPysharp。

  为什么使用此类库?

  因为您可以使用jQuery的CSS选择器来制作一个方便的解析网页。

  现在,代码现已发布,所需的人可以参考它。

  var browser = new ScrapingBrowser();

browser.Encoding = System.Text.Encoding.UTF8;

string html = browser.DownloadString(new Uri("urlAddress"));//获取网页的源码

var doc = new HtmlAgilityPack.HtmlDocument();

doc.LoadHtml(html);

var docNode = doc.DocumentNode;

IEnumerable nodes = docNode.CssSelect(".className");//使用css类选择器获取节点

string text = row_0_s.ElementAt(0).InnerText;//获取标签的文本

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线