网页爬虫抓取百度图片(为什么用Python写爬虫程序:爬虫前奏)
优采云 发布时间: 2022-03-03 14:01网页爬虫抓取百度图片(为什么用Python写爬虫程序:爬虫前奏)
爬行动物前奏
爬虫实例:
搜索引擎(百度、谷歌、360搜索等)。
伯乐在线。
慧慧购物助理。
数据分析与研究(数据冰山知乎栏目)。
抢票软件等
什么是网络爬虫:
通俗理解:爬虫是模拟人类请求行为的程序网站。它可以自动请求网页,获取数据,然后使用一定的规则来提取有价值的数据。
专业介绍:百度百科。
通用爬虫和焦点爬虫:
万能爬虫:万能爬虫是搜索引擎爬虫系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成互联网内容的镜像备份。
Focused crawler:是一种针对特定需求的网络爬虫程序。它与一般爬虫的区别在于:聚焦爬虫在实现网页爬虫时会对内容进行过滤处理,并尽量保证只抓取与需求相关的网页信息。.
为什么要用 Python 编写爬虫程序:
PHP:PHP是世界上最好的语言,但他不是天生就干这个的,而且对多线程、异步支持、并发处理能力弱等问题也不是很好。爬虫是一个工具程序,对速度和效率的要求很高。
Java:生态非常完整,是Python爬虫最大的竞争对手。但是Java语言本身很笨重,代码量很大。重构的成本比较高,任何修改都会导致代码的大量变化。爬虫经常需要修改 采集 代码。
C/C++:运行效率无敌。但学习和发展成本很高。写一个小爬虫可能需要半天以上的时间。
Python:语法优美,代码简洁,开发效率高,支持的模块多。相关的HTTP请求模块和HTML解析模块非常丰富。还有 Scrapy 和 Scrapy-redis 框架,让我们开发爬虫变得非常容易。
准备工具:
Python3.6 开发环境。
Pycharm 2017 专业版。
虚拟环境。虚拟环境/虚拟环境包装器。