从网页抓取数据(我试图从下面的晨星网站上抓取数据:我目前遇到的问题与我抓取的更简单的网页不同)

优采云 发布时间: 2021-12-02 16:11

  从网页抓取数据(我试图从下面的晨星网站上抓取数据:我目前遇到的问题与我抓取的更简单的网页不同)

  我尝试从以下 Morningstar网站 获取数据:

  我目前只想成为 IBM,但我希望最终我可以输入另一家公司的代码并与该公司做同样的事情。到目前为止,我的代码如下:

  import requests, os, bs4, string

url = 'http://financials.morningstar.com/ratios/r.html?t=IBM&region=USA&culture=en_US';

fin_tbl = ()

page = requests.get(url)

c = page.content

soup = bs4.BeautifulSoup(c, "html.parser")

summary = soup.find("div", {"class":"r_bodywrap"})

tables = summary.find_all('table')

print(tables[0])

  我目前遇到的问题与我抓取的较简单的网页不同。该程序似乎无法找到任何表格,尽管我可以在页面的 HTML 中看到它们。

  在研究这个问题时,最接近的stackoverflow问题如下:

  Python webscraping-NoneObeject 失败-损坏的 HTML?

  在那篇文章文章中,他们解释说Morningstar的表是动态加载的,并使用了一些我不熟悉的json代码,并以某种方式生成了不同的网络链接,我设法抓取了该链接,但我不明白它来自哪里?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线