云端内容采集(开发人工智能应用时面临的首要问题,你知道吗?)
优采云 发布时间: 2021-09-10 20:03云端内容采集(开发人工智能应用时面临的首要问题,你知道吗?)
对于开发者来说,数据采集是他们在开发人工智能应用时面临的首要问题。数据采集的内容涉及图像、视频、音频、结构化表格数据和环境信息。数据采集是数据管理的起点。一般来说,数据越多,越丰富,算法能达到的效果就越好。尤其是深度学习,数据量越大,一般模型性能越好。
那么我们从哪里获得这么多数据呢?如果实在找不到自己需要的数据集,那还不如学爬。下面我就慢慢给大家介绍一些爬虫的知识。帮助大家快速入门。后面我会带大家一一学习requests模块、数据提取、高性能爬虫、selenium、反爬虫和反爬虫、Scrapy框架和Scrapy-redis分布式相关知识。
让我们先学习爬虫的基础知识。
爬虫的概念:
网络爬虫也被称为网络蜘蛛、网络机器人。它是一种模拟客户端发送网络请求和接受请求响应的程序,一种按照一定规则自动抓取互联网信息的程序。简而言之,就是模拟浏览器,发送请求,得到响应。原则上,只要客户端(浏览器)能做的事情,爬虫也能做。但是爬虫只能得到客户端显示的数据。
爬虫的作用:
爬虫有很*敏*感*词*。他们可以使用数据采集抓取网站中的文字、图片和音频信息。它也可以用于软件测试。著名的抢票软件也使用了爬虫,还有一些所谓的自动投票软件和微博抽奖机器人。还有大家讨厌的短信轰炸。之前被炸过一次,手机打不开很烦。
爬虫分类:
根据抓到的网站数量,可分为通用爬虫(如搜索引擎)和聚焦爬虫(针对一种或某类网站爬虫,如12306抢票)
按是否以获取数据为目的,可分为功能爬虫(投票、刷赞)和数据增量爬虫(如招聘信息)
根据URL地址和对应的页面内容是否发生变化,数据增量爬虫可以分为基于url地址变化和内容变化的数据增量爬虫和基于URL地址变化和内容变化的数据增量爬虫。
下面是一张图来总结:
爬虫过程如下:
1.获取url地址
2.向目标url地址发送请求并得到响应
3.如果从响应中提取了URL地址,则继续发送请求以获取响应
4.如果从响应中提取数据,保存数据
另外,同学们有时间可以复习一下http/https协议。对后面的学习有帮助