动态网页抓取(我正在一个大型的Web抓取项目中,每个网页的HTML结构彼此不同)
优采云 发布时间: 2021-12-25 13:10动态网页抓取(我正在一个大型的Web抓取项目中,每个网页的HTML结构彼此不同)
我在做一个大型的网页抓取项目,每个网页的HTML结构都各不相同。我想从网页中获取产品说明,我使用的是 BeautifulSoup 包。
比如我要爬取的产品描述是用HTML结构存储的:
<p> "Title"
"Some content"
"Product description"
"Title"
"Product description"
"Title"
"Some content"
"Some content"
"Product description"
"Title"
"Some-content"
"Some-content"
"Some-content"
"Product description"
</p>
我写了一个for循环,根据页面结构从div类“product-description”中获取数据。我的示例代码片段:
希望if条件可以检查当前HTML级别是否相同,如果不能,则检查后续条件。但是,经过 3000 次迭代后,我得到了 Attribute error Nonetype object has no attribute next_sibling 字样。截图如下:
我知道必须有其他更简单的方法来处理这种动态页面结构。任何帮助将不胜感激。提前致谢!