如何抓取网页数据(如何用一些有用的数据抓取一个网页数据(图))

优采云 发布时间: 2022-01-26 10:20

  如何抓取网页数据(如何用一些有用的数据抓取一个网页数据(图))

  不久前,我在LearnML 子论坛上看到了一个帖子。楼主在这篇文章中提到,他的机器学习项目需要抓取网络数据。很多人在回复中给出了自己的方法,主要是学习BeautifulSoup和Selenium的使用方法。

  我在一些数据科学项目中使用了 BeautifulSoup 和 Selenium。在本文中,我将向您展示如何使用一些有用的数据抓取网页并将其转换为 pandas 数据结构(DataFrame)。

  为什么要将其转换为数据结构?这是因为大多数机器学习库都可以处理 pandas 数据结构并以最少的修改来编辑您的模型。

  首先,我们将在 Wikipedia 上找到一个表以转换为数据结构。我抓取的这张表显示了维基百科上浏览次数最多的运动员数据。

  

  很多工作都是通过 HTML 树来获取我们需要的表格。

  

  通过 request 和 regex 库,我们开始使用 BeautifulSoup。

  from bs4 import BeautifulSoup

import requests

import re

import pandas as pd

  复制代码

  接下来,我们将从网页中提取 HTML 代码:

<p>website_url = requests.get('https://en.wikipedia.org/wiki/Wikipedia:Multiyear_ranking_of_most_viewed_pages').text

soup = BeautifulSoup(website_url, 'lxml')

print(soup.prettify())

</a>

Disclaimers

Contact Wikipedia

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线