动态网页抓取(我正在一个大型的Web抓取项目中，每个网页的HTML结构彼此不同)

优采云发布时间: 2021-12-25 13:10

　　我在做一个大型的网页抓取项目，每个网页的HTML结构都各不相同。我想从网页中获取产品说明，我使用的是 BeautifulSoup 包。

　　比如我要爬取的产品描述是用HTML结构存储的：

<p> "Title"

　　 "Some content"

　　 "Product description"

　　 "Title"

　　 "Product description"

　　 "Title"

　　 "Some content"

　　 "Product description"

　　 "Title"

　　 "Some-content"

　　 "Product description"

</p>

　　我写了一个for循环，根据页面结构从div类“product-description”中获取数据。我的示例代码片段：

　　希望if条件可以检查当前HTML级别是否相同，如果不能，则检查后续条件。但是，经过 3000 次迭代后，我得到了 Attribute error Nonetype object has no attribute next_sibling 字样。截图如下：

　　我知道必须有其他更简单的方法来处理这种动态页面结构。任何帮助将不胜感激。提前致谢！

0

2021-12-25

动态网页抓取

0 个评论

要回复文章请先登录或注册