从网页抓取数据(爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取 )

优采云 发布时间: 2021-10-04 12:02

  从网页抓取数据(爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取

)

  爬虫是 Python 的一个重要应用。使用Python爬虫,我们可以很方便的从网上抓取我们想要的数据。本文将以抓取B站的视频热搜榜数据并存储为例,详细介绍Python爬虫。基本流程。如果您还处于初始爬虫阶段或者不了解爬虫的具体工作流程,那么您应该仔细阅读本文!

  第 1 步:尝试请求

  先到b站首页,点击排行榜,复制链接

  https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3<br />

  现在启动 Jupyter notebook 并运行以下代码

  import requests<br /><br />url = &#39;https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3&#39;<br />res = requests.get(&#39;url&#39;)<br />print(res.status_code)<br />#200<br />

  在上面的代码中,我们完成了以下三件事

  可以看到返回值为200,说明服务器响应正常,可以继续。

  第二步:解析页面

  上一步我们通过requests向网站请求数据后,成功获取到一个收录服务器资源的Response对象,现在可以使用.text查看其内容

  

  可以看到返回了一个字符串,里面收录了我们需要的热门列表视频数据,但是直接从字符串中提取内容比较复杂,效率低下,所以我们需要对其进行解析,将字符串转换成结构化的网页数据,以便您可以轻松找到 HTML 标记及其属性和内容。

  在 Python 中有很多方法可以解析网页。您可以使用正则表达式,也可以使用 BeautifulSoup、pyquery 或 lxml。本文将基于 BeautifulSoup 来解释它们。

  Beautiful Soup 是一个第三方库,可以从 HTML 或 XML 文件中提取数据。安装也非常简单。使用 pip install bs4 安装它。让我们用一个简单的例子来说明它是如何工作的

  from bs4 import BeautifulSoup<br /><br />page = requests.get(url)<br />soup = BeautifulSoup(page.content, &#39;html.parser&#39;)<br />title = soup.title.text <br />print(title)<br /># 热门视频排行榜 - 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili<br />

  上面代码中,我们使用bs4中的BeautifulSoup类,将上一步得到的html格式字符串转换为BeautifulSoup对象。注意使用的时候需要开发一个解析器,这里使用的是html.parser。

  然后就可以获取其中一个结构化元素及其属性,比如使用soup.title.text获取页面标题,也可以使用soup.body、soup.p等获取任意需要的元素。

  第 3 步:提取内容

  上面两步我们使用requests向网页请求数据,使用bs4解析页面。现在我们到了最关键的一步:如何从解析后的页面中提取出需要的内容。

  在 Beautiful Soup 中,我们可以使用 find/find_all 来定位元素,但我更习惯使用 CSS 选择器 .select,因为我们可以像使用 CSS 选择元素一样向下访问 DOM 树。

  下面我们用代码来说明如何从解析后的页面中提取B站的热门列表数据。首先,我们需要找到存储数据的标签。在列表页面上按 F12 并按照下面的说明找到它。

  

  可以看到每条视频信息都包裹在li标签下,那么代码可以这样写吗?

  all_products = []<br /><br />products = soup.select(&#39;li.rank-item&#39;)<br />for product in products:<br />    rank = product.select(&#39;div.num&#39;)[0].text<br />    name = product.select(&#39;div.info > a&#39;)[0].text.strip()<br />    play = product.select(&#39;span.data-box&#39;)[0].text<br />    comment = product.select(&#39;span.data-box&#39;)[1].text<br />    up = product.select(&#39;span.data-box&#39;)[2].text<br />    url = product.select(&#39;div.info > a&#39;)[0].attrs[&#39;href&#39;]<br /><br />    all_products.append({<br />        "视频排名":rank,<br />        "视频名": name,<br />        "播放量": play,<br />        "弹幕量": comment,<br />        "up主": up,<br />        "视频链接": url<br />    })<br />

  上面代码中,我们首先使用soup.select('li.rank-item'),然后返回一个收录每个视频信息的列表,然后遍历每个视频信息,依然使用CSS选择器提取我们想要的字段信息以字典的形式存储在开头定义的空列表中。

  可以注意到,我使用了多种选择方法来提取元素。这也是 select 方法的灵活性。有兴趣的读者可以自行进一步研究。

  第 4 步:存储数据

  通过前面三步,我们成功使用requests+bs4从网站中提取出需要的数据,最后只需要将数据写入Excel并保存即可。

  如果你对pandas不熟悉,可以使用csv模块来编写。需要注意的是设置了 encoding='utf-8-sig' 否则会出现中文乱码的问题

  import csv<br />keys = all_products[0].keys()<br /><br />with open(&#39;B站视频热榜TOP100.csv&#39;, &#39;w&#39;, newline=&#39;&#39;, encoding=&#39;utf-8-sig&#39;) as output_file:<br />    dict_writer = csv.DictWriter(output_file, keys)<br />    dict_writer.writeheader()<br />    dict_writer.writerows(all_products)<br />

  如果你熟悉pandas,你可以轻松地将字典转换为DataFrame,只需一行代码

  import pandas as pd<br />keys = all_products[0].keys()<br /><br />pd.DataFrame(all_products,columns=keys).to_csv(&#39;B站视频热榜TOP100.csv&#39;, encoding=&#39;utf-8-sig&#39;)

  

  概括

  至此,我们已经成功地使用Python在本地存储了b站的热门视频列表数据。大多数基于请求的爬虫基本上都是按照以上四个步骤进行的。

  然而,虽然看起来简单,但在真实场景中的每一步都不是那么容易。从请求数据开始,目标网站有多种形式的反爬和加密,后期解析、提取甚至存储数据的方式也很多。需要进一步探索和学习。

  本文选择B站视频热榜正是因为它足够简单,希望通过这个案例,让大家了解爬取的基本过程,最后附上完整的代码

  import requests<br />from bs4 import BeautifulSoup<br />import csv<br />import pandas as pd<br /><br />url = &#39;https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3&#39;<br />page = requests.get(url)<br />soup = BeautifulSoup(page.content, &#39;html.parser&#39;)<br /><br />all_products = []<br /><br />products = soup.select(&#39;li.rank-item&#39;)<br />for product in products:<br />    rank = product.select(&#39;div.num&#39;)[0].text<br />    name = product.select(&#39;div.info > a&#39;)[0].text.strip()<br />    play = product.select(&#39;span.data-box&#39;)[0].text<br />    comment = product.select(&#39;span.data-box&#39;)[1].text<br />    up = product.select(&#39;span.data-box&#39;)[2].text<br />    url = product.select(&#39;div.info > a&#39;)[0].attrs[&#39;href&#39;]<br /><br />    all_products.append({<br />        "视频排名":rank,<br />        "视频名": name,<br />        "播放量": play,<br />        "弹幕量": comment,<br />        "up主": up,<br />        "视频链接": url<br />    })<br /><br /><br />keys = all_products[0].keys()<br /><br />with open(&#39;B站视频热榜TOP100.csv&#39;, &#39;w&#39;, newline=&#39;&#39;, encoding=&#39;utf-8-sig&#39;) as output_file:<br />    dict_writer = csv.DictWriter(output_file, keys)<br />    dict_writer.writeheader()<br />    dict_writer.writerows(all_products)<br /><br />### 使用pandas写入数据<br />pd.DataFrame(all_products,columns=keys).to_csv(&#39;B站视频热榜TOP100.csv&#39;, encoding=&#39;utf-8-sig&#39;)<br />

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线