php用正则表达抓取网页中文章(webscrpaing的xpath速度更是慢得恐怖实验发现效率远低于正则表达式)

优采云发布时间: 2022-02-05 03:01

　　¥([\d\.]+)').findall(html)):

　　#printhid,hprice

　　经过

　　end_time=time.time()

　　re_time_used=end_time-start_time

　　print'"re"timeused:{}seconds.'.format(re_time_used)

　　如果__name__=='__main__'：

　　测试（）

　　结果如下：

　　查看plaincopy到剪贴板打印？

　　“webscraping.xpath”使用时间：100.677000046 秒。

　　“lxml”使用时间：2.秒。

　　“重新”使用时间：0.5 秒。

　　结果令人震惊：

　　因为xpath简单灵活，所以我们在开发爬虫的时候一般比较喜欢它，但是通过这个实验发现它的效率比正则表达式低很多，尤其是webscrpaing库中的xpath速度慢的要命。

　　因此，在我们的爬虫开发过程中，正则表达式应该是首选。如果使用正则表达式真的很难实现，那就考虑xpath。另外，在使用xpath的时候，一定要选择一个高效的库，比如lxml。尤其是当数据量非常大的时候，效率就显得尤为重要。

　　谢谢阅读！这篇关于“提取数据时使用xpath或正则表达式”的文章文章在这里分享。希望以上内容能够对你有所帮助，让你学习到更多的知识，如果你觉得文章不错，可以分享给更多人看到！

0

2022-02-05

php用正则表达抓取网页中文章

0 个评论

要回复文章请先登录或注册