php用正则表达抓取网页中文章(webscrpaing的xpath速度更是慢得恐怖实验发现效率远低于正则表达式)

优采云 发布时间: 2022-02-05 03:01

  php用正则表达抓取网页中文章(webscrpaing的xpath速度更是慢得恐怖实验发现效率远低于正则表达式)

  ¥([\d\.]+)').findall(html)):

  #printhid,hprice

  经过

  end_time=time.time()

  re_time_used=end_time-start_time

  print'"re"timeused:{}seconds.'.format(re_time_used)

  如果__name__=='__main__':

  测试()

  结果如下:

  

  查看plaincopy到剪贴板打印?

  “webscraping.xpath”使用时间:100.677000046 秒。

  “lxml”使用时间:2.秒。

  “重新”使用时间:0.5 秒。

  结果令人震惊:

  因为xpath简单灵活,所以我们在开发爬虫的时候一般比较喜欢它,但是通过这个实验发现它的效率比正则表达式低很多,尤其是webscrpaing库中的xpath速度慢的要命。

  因此,在我们的爬虫开发过程中,正则表达式应该是首选。如果使用正则表达式真的很难实现,那就考虑xpath。另外,在使用xpath的时候,一定要选择一个高效的库,比如lxml。尤其是当数据量非常大的时候,效率就显得尤为重要。

  谢谢阅读!这篇关于“提取数据时使用xpath或正则表达式”的文章文章在这里分享。希望以上内容能够对你有所帮助,让你学习到更多的知识,如果你觉得文章不错,可以分享给更多人看到!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线