抓取网页数据(soup考试:本文具有不错的参考意义(一))
优采云 发布时间: 2021-09-28 17:28抓取网页数据(soup考试:本文具有不错的参考意义(一))
前言:
今天给大家带来的是4个详细步骤讲解Python爬取网页数据的操作过程!(包括示例代码)这篇文章有很好的参考意义,希望对你有帮助!
提示:由于涉及的代码较多,所以大部分代码以图片的形式呈现!
一、使用 webbrowser.open() 打开一个 网站:
示例:使用脚本打开网页。
所有 Python 程序的第一行都应该以 #!python 开头,它告诉计算机您希望 Python 执行这个程序。(我没有带这条线去试试,没关系,也许这是常态)
注意:如果你不知道 sys.argv 的用法,请参考这里;如果你不知道 .join() 的用法,请参考这里。sys.argv 是一个字符串列表,因此将它传递给 join() 方法会返回一个字符串。
好的,现在选择并复制“*敏*感*词*广场”字样,然后在桌面上双击您的程序。当然,你也可以在命令行中找到你的程序并输入位置。
二、 使用请求模块从 Web 下载文件:请求模块不收录在 Python 中。在命令行上运行 pip install request 来安装它。不翻墙就很难安装成功。如需手动安装,请参阅此处。
有多种方法可以查看请求中从 Internet 下载的文件的内容。如果在以后的博客中用到,会进行讲解,这里就不一一介绍了。在下载文件的过程中,使用 raise_for_status() 方法确保下载确实成功,然后让程序继续做其他事情。
三、将下载的文件保存到本地:
四、 使用 BeautifulSoup 模块解析 HTML:在命令行使用 pip install beautifulsoup4 安装它。
1.bs4.BeautifulSoup()函数可以解析HTML网站链接requests.get(),或者解析本地保存的HTML文件,直接open()一个本地的HTML页面。
我这里有一条错误消息,所以我添加了第二个参数。
2.使用select()方法查找元素:需要传入一个字符串作为CSS“选择器”来获取网页对应的元素,例如:
汤.选择('div'):所有名称
Soup.select('#author'):id属性为author的元素;soup.select('.notice'):所有具有名为 notice 的 CSS 类属性的元素;汤.select('div span'): 全部在
元素内的元素;soup.select('input[name]'):所有具有名称和名称属性值无关紧要的元素;sound.select('input[type="button"]'): All 元素命名并有一个值为button的type属性。