动态网页抓取(我正在一个大型的Web抓取项目中,每个网页的HTML结构彼此不同)

优采云 发布时间: 2021-12-25 13:10

  动态网页抓取(我正在一个大型的Web抓取项目中,每个网页的HTML结构彼此不同)

  我在做一个大型的网页抓取项目,每个网页的HTML结构都各不相同。我想从网页中获取产品说明,我使用的是 BeautifulSoup 包。

  比如我要爬取的产品描述是用HTML结构存储的:

  

<p> "Title"

   "Some content"

   "Product description"

   "Title"

   "Product description"

   "Title"

   "Some content"

   "Some content"

   "Product description"

   "Title"

   "Some-content"

   "Some-content"

   "Some-content"

   "Product description"

</p>

  我写了一个for循环,根据页面结构从div类“product-description”中获取数据。我的示例代码片段:

  希望if条件可以检查当前HTML级别是否相同,如果不能,则检查后续条件。但是,经过 3000 次迭代后,我得到了 Attribute error Nonetype object has no attribute next_sibling 字样。截图如下:

  

  我知道必须有其他更简单的方法来处理这种动态页面结构。任何帮助将不胜感激。提前致谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线