网络爬虫入门之python

优采云 发布时间: 2022-08-09 02:18

  网络爬虫入门之python

  网络爬虫定义:

  (来自于百度百科):网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

  为什么要学:

  在数据爆发式增长时代,如果这些数据得以分析利用,可以帮助企业更好的做出决策。网络爬虫技术,也是大数据分析的第一个环节。

  Robots协议(爬虫协议)

  全称是网络爬虫排除标准,通过该协议告诉搜索引擎哪些页面可以抓取,哪些不能抓取。是国际互联网通行的道德规范,虽然没有写入法律,但每一个爬虫都应该遵守这项协议。

  python

  (来自于百度百科):Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计,作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言, 随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。

  Python解释器易于扩展,可以使用C语言或C++(或者其他可以通过C调用的语言)扩展新的功能和数据类型。Python也可用于可定制化软件中的扩展程序语言。Python丰富的标准库,提供了适用于各个主要系统平台的源码或机器码。

  2021年10月,语言流行指数的编译器Tiobe将Python加冕为最受欢迎的编程语言,20年来首次将其置于Java、C和JavaScript之上。

  

  版本很多,本次使用python3

  python爬虫流程

  重要知识点:

  获取网页:requests、urllib、selenium

  解析网页:re正则表达式、BeautifulSoup、lxml

  存储数据:存入txt、csv、存入mysql、redis、mongodb等

  框架:scrapy

  python 安装

  使用Anaconda科学计算环境下载python

  安装步骤 自行搜索百度,有很多,其实就是下一步下一步。使用pip安装第三方库或者使用Anaconda安装第三方库。

  

  编辑器:Pycharm

  如果你使用Python安装包下载的python,推荐使用pycharm编辑器。下载免费版即可,官网好像被墙了。

  python之初尝试

  python之爬虫初尝试

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线