浏览器抓取网页( 入门网络数据爬取,也就是Python爬虫现实中(组图) )

优采云 发布时间: 2021-09-25 03:28

  浏览器抓取网页(

入门网络数据爬取,也就是Python爬虫现实中(组图)

)

  

  网络数据爬虫入门,即Python爬虫

  在现实中,当我们使用浏览器访问网页时,网络是如何工作的,是做什么的?

  首先要了解网络连接的基本流程原理,然后,就比较容易理解爬取的原理了。

  1、网络连接原理

  

  如上图,简单来说,网络连接就是计算机发起请求,服务器返回相应的HTML文件。至于请求头和消息体,详细说明了要爬取的链接。

  2、爬取的原理

  爬虫的原理是模拟计算机向服务器发起Request请求,接收并解析来自服务器的响应内容,提取需要的信息。

  往往一次请求无法完全获取所有网页的信息和数据,则需要合理设计爬取流程,实现多页面跨页面爬取。

  多页爬取的过程是怎样的?

  

  基本思路:

  1、由于多个页面的结构可能相似,可以手动翻页先观察网址

  2、获取所有网址

  3、根据每个页面URL的函数定义抓取数据

  4、循环网址抓取存储

  跨页爬取流程是什么?

  

  基本思路:

  1、查找所有网址

  2、定义爬取详细页面的函数代码

  3、进入详细页面查看详细数据

  4、存储,循环完成,结束

  3、网页是什么样子的?

  右键单击并选择“检查”以打开网页的源代码。可以看到上面是HTML文件,下面是CSS样式。

  我们浏览的网页是浏览器渲染的结果,是翻译HTML、CSS、JavaScript代码得到的页面界面。一个流行的比喻是:添加一个网页就是一个房子,HTML是房子的框架和布局,CSS是房子的软装饰风格,比如地板和油漆,而javaScript是电器。

  比如打开百度搜索,将鼠标移动到“百度点击”按钮上,右击选择“检查”,就可以看到网页源代码的位置了。

  

  或者直接打开右键源代码,点击网页源页面左上角的类似鼠标的图标,然后移动到网页的具体位置,就可以看到了。

  

  总结一下:爬取数据就是发起一个请求,获取网页信息,然后找到自己想要的信息,但是在请求的过程中,很容易被逆转,禁止爬取。因此,绕过反拼字机制需要很多技巧。后续我们会一一解答。

  ——每天一小步,未来一大步!

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线