网页中flash数据抓取(使用Python和CSS选择器来提取网页内容_html库(图) )

优采云 发布时间: 2021-12-26 05:00

  网页中flash数据抓取(使用Python和CSS选择器来提取网页内容_html库(图)

)

  使用pip安装requests_html库

   pip install requests_html

  根据您的网络情况,通常需要几分钟的时间。

  在您计算机上的任何位置创建一个新的 crawler.py 文件。输入并执行以下4行代码:

  from requests_html import HTMLSession

session = HTMLSession()

r = session.get(\'https://movie.douban.com/subject/1292052/\')

print(r.text)

  运行

  您将看到以下输出:

  DOCTYPE html>

肖申克的救赎 (豆瓣)

... 以下省略 3000 行

  从网页中提取所需内容

  您将使用强大的 CSS 选择器从网页中提取有价值的信息。

  CSS 选择器可以从结构化网页中选择特定元素。

  大多数浏览器都提供获取页面上特定元素的 CSS 选择器的能力。

  首先检查一段内容的代码,在代码上右击,选择Copy->Copy Selector(或Copy CSS Selector,复制CSS选择器),那么这段内容对应的CSS选择器就可以了复制到剪贴板。

  

  现在您需要访问此页面。根据上面的介绍,复制电影名称对应的选择器

  回到之前创建的 crawler.py 文件,使用 Python 和 CSS 选择器提取网页内容。

  from requests_html import HTMLSession

session = HTMLSession()

r = session.get(\'https://movie.douban.com/subject/1292052/\')

title = r.html.find(\'用你的选择器替换这里的内容\', first=True)

# r.html.find() 接受一个 CSS 选择器(字符串形式)作为参数

# 返回在网页中使用该选择器选中的内容。

print(title.text)

  运行看看,你有没有从网页中提取电影名称?如果成功,请尝试提取您感兴趣的其他内容!

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线