抓取网页数据(soup考试:本文具有不错的参考意义(一))

优采云 发布时间: 2021-09-28 17:28

  抓取网页数据(soup考试:本文具有不错的参考意义(一))

  前言:

  今天给大家带来的是4个详细步骤讲解Python爬取网页数据的操作过程!(包括示例代码)这篇文章有很好的参考意义,希望对你有帮助!

  提示:由于涉及的代码较多,所以大部分代码以图片的形式呈现!

  一、使用 webbrowser.open() 打开一个 网站:

  

  示例:使用脚本打开网页。

  所有 Python 程序的第一行都应该以 #!python 开头,它告诉计算机您希望 Python 执行这个程序。(我没有带这条线去试试,没关系,也许这是常态)

  

  注意:如果你不知道 sys.argv 的用法,请参考这里;如果你不知道 .join() 的用法,请参考这里。sys.argv 是一个字符串列表,因此将它传递给 join() 方法会返回一个字符串。

  好的,现在选择并复制“*敏*感*词*广场”字样,然后在桌面上双击您的程序。当然,你也可以在命令行中找到你的程序并输入位置。

  二、 使用请求模块从 Web 下载文件:请求模块不收录在 Python 中。在命令行上运行 pip install request 来安装它。不翻墙就很难安装成功。如需手动安装,请参阅此处。

  

  有多种方法可以查看请求中从 Internet 下载的文件的内容。如果在以后的博客中用到,会进行讲解,这里就不一一介绍了。在下载文件的过程中,使用 raise_for_status() 方法确保下载确实成功,然后让程序继续做其他事情。

  

  三、将下载的文件保存到本地:

  四、 使用 BeautifulSoup 模块解析 HTML:在命令行使用 pip install beautifulsoup4 安装它。

  1.bs4.BeautifulSoup()函数可以解析HTML网站链接requests.get(),或者解析本地保存的HTML文件,直接open()一个本地的HTML页面。

  

  我这里有一条错误消息,所以我添加了第二个参数。

  

  2.使用select()方法查找元素:需要传入一个字符串作为CSS“选择器”来获取网页对应的元素,例如:

  汤.选择('div'):所有名称

  Soup.select('#author'):id属性为author的元素;soup.select('.notice'):所有具有名为 notice 的 CSS 类属性的元素;汤.select('div span'): 全部在

  元素内的元素;soup.select('input[name]'):所有具有名称和名称属性值无关紧要的元素;sound.select('input[type="button"]'): All 元素命名并有一个值为button的type属性。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线