网页抓取数据百度百科(Python代码的适用实例有哪些?WebScraping的基本原理步骤)

优采云 发布时间: 2022-03-18 10:28

  网页抓取数据百度百科(Python代码的适用实例有哪些?WebScraping的基本原理步骤)

  本文主要介绍Web Scraping的基本原理,基于Python语言,白话,面向可爱小白(^-^)。

  令人困惑的名字:

  很多时候,人们会将网上获取数据的代码称为“爬虫”。

  但其实所谓的“爬虫”并不是特别准确,因为“爬虫”也是分类的,

  有两种常见的“爬行动物”:

  网络爬虫,也称为蜘蛛;Spiderbot Web Scraper,也称为 Web Harvesting;网络数据提取

  不过,这文章主要说明了第二种“网络爬虫”的原理。

  什么是网页抓取?

  简单地说,Web Scraping,(在本文中)是指使用 Python 代码从肉眼可见的网页中抓取数据。

  为什么需要网页抓取?

  因为,重复太多的工作,自己做,可能会很累!

  有哪些适用的代码示例?例如,您需要下载证券交易所 50 种不同股票的当前价格,或者,您想打印出新闻 网站 上所有最新新闻的头条新闻,或者,只是想把网站上的所有商品,列出价格,放到Excel中对比,等等,尽情发挥你的想象力吧……

  Web Scraping的基本原理:

  首先,您需要了解网页是如何在我们的屏幕上呈现的;

  其实我们发送一个Request,然后100公里外的服务器给我们返回一个Response;然后我们看了很多文字,最后,浏览器偷偷把文字排版,放到我们的屏幕上;更详细的原理可以看我之前的博文HTTP下午茶-小白简介

  然后,我们需要了解如何使用 Python 来实现它。实现原理基本上有四个步骤:

  首先,代码需要向服务器发送一个Request,然后接收一个Response(html文件)。然后,我们需要对接收到的 Response 进行处理,找到我们需要的文本。然后,我们需要设计代码流来处理重复性任务。最后,导出我们得到的数据,最好在摘要末尾的一个漂亮的 Excel 电子表格中:

  本文章重点讲解实现的思路和流程,

  所以,没有详尽无遗,也没有给出实际代码,

  然而,这个想法几乎是网络抓取的一般例程。

  把它写在这里,当你想到任何东西时更新它。

  如果写的有问题,请见谅!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线