实时抓取网页数据(2021-11-16在开发Web应用中的应用模式 )
优采云 发布时间: 2022-04-20 00:05实时抓取网页数据(2021-11-16在开发Web应用中的应用模式
)
2021-11-16一. Web 应用模式
在开发Web应用程序时,有两种应用模式:
知识储备:什么是动态页面(查数据库),什么是静态页面(静态html)
# 判断条件: 根据html页面内容是写死的还是从后端动态获取的
静态网页: 页面上的数据是直接写死的 万年不变
动态网页: 数据是实时获取的. 如下例子:
1.后端获取当前时间展示到html页面上
2.数据是从数据库中获取的展示到html页面上
# 总结
静: 页面数据写死的
动: 查数据库
1. 前后端不分离
前后端混合开发(前后端不分离):返回html的内容,需要写一个模板
Key:请求动态页面,返回HTML
2. 前后端分离
前后端分离:只关注写后端接口,返回json、xml格式数据
Key:去静态文件服务器请求静态页面,静态文件服务器返回静态页面。然后JS请求django后端,django后端返回json或者xml格式的数据
# xml格式
lqz
# json格式
{"name":"lqz"}
# asp 动态服务器页面. jsp Java服务端网页
# java---> jsp
https://www.pearvideo.com/category_loading.jsp
#php写的
http://www.aa7a.cn/user.php
# python写的
http://www.aa7a.cn/user.html
# 动静态页面存在的主要作用
优化查询
3. 总结
# 动静态页面
静态: 页面内容写死的, 内容都是固定不变的.
动态: 页面内容含有需要从数据库中获取的.
# 前后端不分离
特点: 请求动态页面, 返回HTML数据或者重定向
# 前后端分离特点
特点:
请求静态页面(向静态服务器), 返回静态文件
请求需要填充的数据, 返回js或者xml格式数据
二. API 接口
为了在团队内部形成共识,防止个人习惯差异造成的混乱,我们需要找到一个大家都觉得很好的接口实现规范,并且这个规范可以让后端写的接口一目了然,减少双方的摩擦。合作成本。
通过网络,指定前后信息交互规则的url链接,即前后信息交互的媒介
Web API接口和一般的url链接还是有区别的。Web API 接口具有以下四个特点。
请求方法:get、post、put、patch、delete
请求参数:json或xml格式的key-value类型数据
响应结果:json或xml格式的数据
# xml格式
https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295®ion=%E4%B8%8A%E6%B5%B7&query=%E8%82%AF%E5%BE%B7%E5%9F%BA&output=xml
#json格式
https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295®ion=%E4%B8%8A%E6%B5%B7&query=%E8%82%AF%E5%BE%B7%E5%9F%BA&output=json
{
"status":0,
"message":"ok",
"results":[
{
"name":"肯德基(罗餐厅)",
"location":{
"lat":31.415354,
"lng":121.357339
},
"address":"月罗路2380号",
"province":"上海市",
"city":"上海市",
"area":"宝山区",
"street_id":"339ed41ae1d6dc320a5cb37c",
"telephone":"(021)56761006",
"detail":1,
"uid":"339ed41ae1d6dc320a5cb37c"
}
...
]
}
总结
什么是API接口?
API接口就是前后端信息交互的媒介(提示: 表示的是前后端之间)
三. 接口测试工具:Postman
Postman 是一个界面调试工具。它是一款免费的可视化软件,支持各种操作系统平台。它是测试接口的首选工具。
Postman可以直接到官网下载:傻瓜式安装。
四. RESTful API 规范
REST的全称是Representational State Transfer,中文意思是表示(编者注:通常翻译为Representational State Transfer)。它于 2000 年首次出现在 Roy Fielding 的博士论文中。
RESTful 是一种用于定义 Web API 接口的设计风格,特别适用于前后端分离的应用模式。
这种风格的概念是后端开发任务是提供数据,对外提供数据资源的访问接口。因此,在定义接口时,客户端访问的URL路径代表要操作的数据资源。
事实上,我们可以使用任何框架来实现符合restful规范的API接口。
1. 数据安全
# url链接一般都采用https协议进行传输
# 注:采用https协议,可以提高数据交互过程中的安全性
2. 接口特征表示
# 用api关键字标识接口url:
[https://api.baidu.com](https://api.baidu.com/)
https://www.baidu.com/api
# 注:看到api字眼,就代表该请求url链接是完成前后台数据交互的
3. 多个数据版本共存
# 在url链接中标识数据版本
https://api.baidu.com/v1
https://api.baidu.com/v2
# 注:url链接中的v1、v2就是不同数据版本的体现(只有在一种数据资源有多版本情况下)
4. 数据是资源,都用名词(可以是复数)
# 接口一般都是完成前后台数据的交互,交互的数据我们称之为资源
https://api.baidu.com/users
https://api.baidu.com/books
https://api.baidu.com/book
# 注:不要出现操作资源的动词,错误示范:https://api.baidu.com/delete-user
# 例外: 特殊的接口可以出现动词,因为这些接口一般没有一个明确的资源,或是动词就是接口的核心含义
https://api.baidu.com/place/search
https://api.baidu.com/login
5. 资源操作由请求方法(方法)决定
# 操作资源一般都会涉及到增删改查,我们提供请求方式来标识增删改查动作
https://api.baidu.com/books - get请求: 获取所有书
https://api.baidu.com/books/1 - get请求: 获取主键为1的书
https://api.baidu.com/books - post请求: 新增一本书
https://api.baidu.com/books/1 - put请求: 整体修改主键为1的书
https://api.baidu.com/books/1 - patch请求: 局部修改主键为1的书
https://api.baidu.com/books/1 - delete请求:删除主键为1的书
6. 过滤,在url中以上传参数的形式传递搜索条件
https://api.example.com/v1/zoos?limit=10 指定返回记录的数量
https://api.example.com/v1/zoos?offset=10 指定返回记录的开始位置
https://api.example.com/v1/zoos?page=2&per_page=100 指定第几页,以及每页的记录数
https://api.example.com/v1/zoos?sortby=name&order=asc 指定返回结果按照哪个属性排序,以及排序顺序
https://api.example.com/v1/zoos?animal_type_id=1 指定筛选条件
7. 响应状态码
# 正常响应
响应状态码2xx
200:常规请求
201:创建成功
# 重定向响应
响应状态码3xx
301:永久重定向
302:暂时重定向
# 客户端异常
响应状态码4xx
403:请求无权限
404:请求路径不存在
405:请求方法不存在
# 服务器异常
响应状态码5xx
500:服务器异常
8. 错误处理,应该返回错误信息,error作为key
{
error: "无权限操作"
}
9. 返回结果。对于不同的操作,服务器返回给用户的结果应符合以下规范
GET /collection 返回资源对象的列表(数组) 多个[{}],
GET /collection/resource 返回单个资源对象 单个{}
POST /collection 返回新生成的资源对象
PUT /collection/resource 返回完整的资源对象
PATCH /collection/resource 返回完整的资源对象
DELETE /collection/resource 返回一个空文档
10. 需要url请求的资源需要请求链接才能访问资源
# Hypermedia API,RESTful API最好做到Hypermedia,即返回结果中提供链接,连向其他API方法,使得用户不查文档,也知道下一步应该做什么
{
"status": 0,
"msg": "ok",
"results":[
{
"name":"肯德基(罗餐厅)",
"img": "https://image.baidu.com/kfc/001.png"
}
...
]
}
更好的界面回报
# 响应数据要有状态码、状态信息以及数据本身
{
"status": 0,
"msg": "ok",
"results":[
{
"name":"肯德基(罗餐厅)",
"location":{
"lat":31.415354,
"lng":121.357339
},
"address":"月罗路2380号",
"province":"上海市",
"city":"上海市",
"area":"宝山区",
"street_id":"339ed41ae1d6dc320a5cb37c",
"telephone":"(021)56761006",
"detail":1,
"uid":"339ed41ae1d6dc320a5cb37c"
}
...
]
}
11. 总结
# 关键字: HTTPS协议, api, 版本, 资源标识, 请求方式, url传参标识, 响应状态码, 错误信息, 不同的操作返回不同的结果, 返回url
1. 传输数据用HTTPS协议
2. 接口具有标识性
https://api.baidu.com
https://www.baidu.com/api
3. 接口具有版本标识性
https://api.baidu.com/v1
https://api.baidu.com/v2
4. 核心: 接口对资源具有标识性(名词)
https://api.baidu.com/books
https://api.baidu.com/book
5. 核心: 通过请求的方式来决定对数据的操作方式
get获取, post增加, put整体更新, patch局部更新, delete删除
6. 通过url传参数的形式传递搜索条件
https://api.baidu.com/books?limit=10
7. 响应状态码
200常规请求 201创建成功请求
301永久重定向 302暂时重定向
403请求无权限 404请求无路径 405请求方法不存在
500服务端异常
8. 错误信息
{
'error': '无权限操作'
}
9. 针对不同的操作, 返回不同的返回结果
get 获取多个[{}], 获取单个{}
post 返回新增的
put 返回修改后所有的内容(包括没修改的. 全部)
patch 返回修改后所有的内容(包括没修改的. 全部)
delete 返回空文档
10. 基于请求响应过后返回内容中, 可以带url地址
{
"status": 0,
"msg": "ok",
"results":[
{
"name":"肯德基(罗餐厅)",
"img": "https://image.baidu.com/kfc/001.png"
}
...
]
}
五. 序列化
API接口开发的核心和最常见的过程是序列化。所谓序列化,就是将数据转换成一种格式。序列化可以分为两个阶段:
序列化:将我们识别的数据转换成指定的格式,提供给其他人。
例如:我们在django中获取的数据默认是模型对象,但是模型对象数据不能直接提供给前端或者其他平台,所以需要将数据序列化成字符串或者json数据提供给其他 。
反序列化:将他人提供的数据转换/恢复为我们需要的格式。
比如前端js提供的json数据是python的字符串,我们需要将其反序列化为模型类对象,这样我们才能将数据保存到数据库中。
六. Django Rest_Framework
核心思想:减少编写api接口的代码
Django REST framework是一个基于Django的Web应用开发框架,可以快速开发REST API接口应用。在REST框架中,提供了序列化器Serialzier的定义,可以帮助我们简化序列化和反序列化的过程。不仅如此,它还提供了丰富的类视图、扩展类和视图集来简化视图的编写。REST框架还提供了认证、权限、限流、过滤、分页、接口文档等功能支持。REST framework 提供API 的Web 可视化界面,方便查看测试界面。
官方文档:
github:
特征
提供了定义序列化器Serializer的方法,可以快速根据 Django ORM 或者其它库自动序列化/反序列化;
提供了丰富的类视图、Mixin扩展类,简化视图的编写;
丰富的定制层级:函数视图、类视图、视图集合到自动生成 API,满足各种需要;
多种身份认证和权限认证方式的支持;[jwt]
内置了限流系统;
直观的 API web 界面;
可扩展性,插件丰富
七. drf的安装和简单使用
# 安装:pip install djangorestframework==3.10.3
# 使用
# 1. 在setting.py 的app中注册
INSTALLED_APPS = [
'rest_framework'
]
# 2. 在models.py中写表模型
class Book(models.Model):
nid=models.AutoField(primary_key=True)
name=models.CharField(max_length=32)
price=models.DecimalField(max_digits=5,decimal_places=2)
author=models.CharField(max_length=32)
# 3. 新建一个序列化类
from rest_framework.serializers import ModelSerializer
from app01.models import Book
class BookModelSerializer(ModelSerializer):
class Meta:
model = Book
fields = "__all__"
# 4. 在视图中写视图类
from rest_framework.viewsets import ModelViewSet
from .models import Book
from .ser import BookModelSerializer
class BooksViewSet(ModelViewSet):
queryset = Book.objects.all()
serializer_class = BookModelSerializer
# 5. 写路由关系
from app01 import views
from rest_framework.routers import DefaultRouter
router = DefaultRouter() # 可以处理视图的路由器
router.register('book', views.BooksViewSet) # 向路由器中注册视图集
# 将路由器中的所以路由信息追到到django的路由列表中
urlpatterns = [
path('admin/', admin.site.urls),
]
#这是什么意思?两个列表相加
# router.urls 列表
urlpatterns += router.urls
# 6. 启动,在postman中测试即可
八.在CBV中继承查看源码分析1.代码分析
入口点: urls.py 中的 .as_view() 方法
path('books1/', views.Books.as_view())
视图中的 Books 类
class Books(View):
# 如果有个需求,只能接受get请求
http_method_names = ['get', ]
def get(self, request):
print(self.request) # 看: 这里可以通过self.request进行获取到request方法
return HttpResponse('ok')
项目启动时执行
@classonlymethod
def as_view(cls, **initkwargs):
...
def view(request, *args, **kwargs):
...
...
return view
路由匹配时执行,实例化执行的类,通过执行路由匹配中类实例化的对象,执行继承父类View中定义的dispatch方法。
def view(request, *args, **kwargs):
self = cls(**initkwargs)
if hasattr(self, 'get') and not hasattr(self, 'head'):
self.head = self.get
self.request = request
self.args = args
self.kwargs = kwargs
return self.dispatch(request, *args, **kwargs)
在dispatch方法中使用反射获取请求的类型,执行对应类中定义的方法
def dispatch(self, request, *args, **kwargs):
# Try to dispatch to the right method; if a method doesn't exist,
# defer to the error handler. Also defer to the error handler if the
# request method isn't on the approved list.
if request.method.lower() in self.http_method_names:
handler = getattr(self, request.method.lower(), self.http_method_not_allowed)
else:
handler = self.http_method_not_allowed
return handler(request, *args, **kwargs)