抓取网页数据(soup考试：本文具有不错的参考意义（一）)

优采云发布时间: 2021-09-28 17:28

　　前言：

　　今天给大家带来的是4个详细步骤讲解Python爬取网页数据的操作过程！（包括示例代码）这篇文章有很好的参考意义，希望对你有帮助！

　　提示：由于涉及的代码较多，所以大部分代码以图片的形式呈现！

　　一、使用 webbrowser.open() 打开一个网站：

　　示例：使用脚本打开网页。

　　所有 Python 程序的第一行都应该以 #!python 开头，它告诉计算机您希望 Python 执行这个程序。（我没有带这条线去试试，没关系，也许这是常态）

　　注意：如果你不知道 sys.argv 的用法，请参考这里；如果你不知道 .join() 的用法，请参考这里。sys.argv 是一个字符串列表，因此将它传递给 join() 方法会返回一个字符串。

　　好的，现在选择并复制“*敏*感*词*广场”字样，然后在桌面上双击您的程序。当然，你也可以在命令行中找到你的程序并输入位置。

　　二、使用请求模块从 Web 下载文件：请求模块不收录在 Python 中。在命令行上运行 pip install request 来安装它。不翻墙就很难安装成功。如需手动安装，请参阅此处。

　　有多种方法可以查看请求中从 Internet 下载的文件的内容。如果在以后的博客中用到，会进行讲解，这里就不一一介绍了。在下载文件的过程中，使用 raise_for_status() 方法确保下载确实成功，然后让程序继续做其他事情。

　　三、将下载的文件保存到本地：

　　四、使用 BeautifulSoup 模块解析 HTML：在命令行使用 pip install beautifulsoup4 安装它。

　　1.bs4.BeautifulSoup()函数可以解析HTML网站链接requests.get()，或者解析本地保存的HTML文件，直接open()一个本地的HTML页面。

　　我这里有一条错误消息，所以我添加了第二个参数。

　　2.使用select()方法查找元素：需要传入一个字符串作为CSS“选择器”来获取网页对应的元素，例如：

　　汤.选择（'div'）：所有名称

　　Soup.select('#author')：id属性为author的元素；soup.select('.notice')：所有具有名为 notice 的 CSS 类属性的元素；汤.select('div span'): 全部在

　　元素内的元素；soup.select('input[name]')：所有具有名称和名称属性值无关紧要的元素；sound.select('input[type="button"]'): All 元素命名并有一个值为button的type属性。

0

2021-09-28

抓取网页数据

0 个评论

要回复文章请先登录或注册