网页中flash数据抓取(使用Python和CSS选择器来提取网页内容_html库(图) )
优采云 发布时间: 2021-12-26 05:00网页中flash数据抓取(使用Python和CSS选择器来提取网页内容_html库(图)
)
使用pip安装requests_html库
pip install requests_html
根据您的网络情况,通常需要几分钟的时间。
在您计算机上的任何位置创建一个新的 crawler.py 文件。输入并执行以下4行代码:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get(\'https://movie.douban.com/subject/1292052/\')
print(r.text)
运行
您将看到以下输出:
DOCTYPE html>
肖申克的救赎 (豆瓣)
... 以下省略 3000 行
从网页中提取所需内容
您将使用强大的 CSS 选择器从网页中提取有价值的信息。
CSS 选择器可以从结构化网页中选择特定元素。
大多数浏览器都提供获取页面上特定元素的 CSS 选择器的能力。
首先检查一段内容的代码,在代码上右击,选择Copy->Copy Selector(或Copy CSS Selector,复制CSS选择器),那么这段内容对应的CSS选择器就可以了复制到剪贴板。
现在您需要访问此页面。根据上面的介绍,复制电影名称对应的选择器
回到之前创建的 crawler.py 文件,使用 Python 和 CSS 选择器提取网页内容。
from requests_html import HTMLSession
session = HTMLSession()
r = session.get(\'https://movie.douban.com/subject/1292052/\')
title = r.html.find(\'用你的选择器替换这里的内容\', first=True)
# r.html.find() 接受一个 CSS 选择器(字符串形式)作为参数
# 返回在网页中使用该选择器选中的内容。
print(title.text)
运行看看,你有没有从网页中提取电影名称?如果成功,请尝试提取您感兴趣的其他内容!