网页中flash数据抓取(使用Python和CSS选择器来提取网页内容_html库(图) )

优采云发布时间: 2021-12-26 05:00

　　网页中flash数据抓取(使用Python和CSS选择器来提取网页内容_html库(图)

)

　　使用pip安装requests_html库

　　 pip install requests_html

　　根据您的网络情况，通常需要几分钟的时间。

　　在您计算机上的任何位置创建一个新的 crawler.py 文件。输入并执行以下4行代码：

　　from requests_html import HTMLSession

session = HTMLSession()

r = session.get(\'https://movie.douban.com/subject/1292052/\')

print(r.text)

　　运行

　　您将看到以下输出：

　　DOCTYPE html>

肖申克的救赎 (豆瓣)

... 以下省略 3000 行

　　从网页中提取所需内容

　　您将使用强大的 CSS 选择器从网页中提取有价值的信息。

　　CSS 选择器可以从结构化网页中选择特定元素。

　　大多数浏览器都提供获取页面上特定元素的 CSS 选择器的能力。

　　首先检查一段内容的代码，在代码上右击，选择Copy->Copy Selector（或Copy CSS Selector，复制CSS选择器），那么这段内容对应的CSS选择器就可以了复制到剪贴板。

　　现在您需要访问此页面。根据上面的介绍，复制电影名称对应的选择器

　　回到之前创建的 crawler.py 文件，使用 Python 和 CSS 选择器提取网页内容。

　　from requests_html import HTMLSession

session = HTMLSession()

r = session.get(\'https://movie.douban.com/subject/1292052/\')

title = r.html.find(\'用你的选择器替换这里的内容\', first=True)

# r.html.find() 接受一个 CSS 选择器（字符串形式）作为参数

# 返回在网页中使用该选择器选中的内容。

print(title.text）

　　运行看看，你有没有从网页中提取电影名称？如果成功，请尝试提取您感兴趣的其他内容！

0

2021-12-26

网页中flash数据抓取

0 个评论

要回复文章请先登录或注册