网页抓取数据百度百科(Python代码的适用实例有哪些？WebScraping的基本原理步骤)

优采云发布时间: 2022-03-18 10:28

　　本文主要介绍Web Scraping的基本原理，基于Python语言，白话，面向可爱小白(^-^)。

　　令人困惑的名字：

　　很多时候，人们会将网上获取数据的代码称为“爬虫”。

　　但其实所谓的“爬虫”并不是特别准确，因为“爬虫”也是分类的，

　　有两种常见的“爬行动物”：

　　网络爬虫，也称为蜘蛛；Spiderbot Web Scraper，也称为 Web Harvesting；网络数据提取

　　不过，这文章主要说明了第二种“网络爬虫”的原理。

　　什么是网页抓取？

　　简单地说，Web Scraping，（在本文中）是指使用 Python 代码从肉眼可见的网页中抓取数据。

　　为什么需要网页抓取？

　　因为，重复太多的工作，自己做，可能会很累！

　　有哪些适用的代码示例？例如，您需要下载证券交易所 50 种不同股票的当前价格，或者，您想打印出新闻网站上所有最新新闻的头条新闻，或者，只是想把网站上的所有商品，列出价格，放到Excel中对比，等等，尽情发挥你的想象力吧……

　　Web Scraping的基本原理：

　　首先，您需要了解网页是如何在我们的屏幕上呈现的；

　　其实我们发送一个Request，然后100公里外的服务器给我们返回一个Response；然后我们看了很多文字，最后，浏览器偷偷把文字排版，放到我们的屏幕上；更详细的原理可以看我之前的博文HTTP下午茶-小白简介

　　然后，我们需要了解如何使用 Python 来实现它。实现原理基本上有四个步骤：

　　首先，代码需要向服务器发送一个Request，然后接收一个Response（html文件）。然后，我们需要对接收到的 Response 进行处理，找到我们需要的文本。然后，我们需要设计代码流来处理重复性任务。最后，导出我们得到的数据，最好在摘要末尾的一个漂亮的 Excel 电子表格中：

　　本文章重点讲解实现的思路和流程，

　　所以，没有详尽无遗，也没有给出实际代码，

　　然而，这个想法几乎是网络抓取的一般例程。

　　把它写在这里，当你想到任何东西时更新它。

　　如果写的有问题，请见谅！

0

2022-03-18

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册