php用正则表达抓取网页中文章(webscrpaing的xpath速度更是慢得恐怖实验发现效率远低于正则表达式)
优采云 发布时间: 2022-02-05 03:01php用正则表达抓取网页中文章(webscrpaing的xpath速度更是慢得恐怖实验发现效率远低于正则表达式)
¥([\d\.]+)').findall(html)):
#printhid,hprice
经过
end_time=time.time()
re_time_used=end_time-start_time
print'"re"timeused:{}seconds.'.format(re_time_used)
如果__name__=='__main__':
测试()
结果如下:
查看plaincopy到剪贴板打印?
“webscraping.xpath”使用时间:100.677000046 秒。
“lxml”使用时间:2.秒。
“重新”使用时间:0.5 秒。
结果令人震惊:
因为xpath简单灵活,所以我们在开发爬虫的时候一般比较喜欢它,但是通过这个实验发现它的效率比正则表达式低很多,尤其是webscrpaing库中的xpath速度慢的要命。
因此,在我们的爬虫开发过程中,正则表达式应该是首选。如果使用正则表达式真的很难实现,那就考虑xpath。另外,在使用xpath的时候,一定要选择一个高效的库,比如lxml。尤其是当数据量非常大的时候,效率就显得尤为重要。
谢谢阅读!这篇关于“提取数据时使用xpath或正则表达式”的文章文章在这里分享。希望以上内容能够对你有所帮助,让你学习到更多的知识,如果你觉得文章不错,可以分享给更多人看到!