实时抓取网页数据(2021-11-16在开发Web应用中的应用模式 )

优采云 发布时间: 2022-04-20 00:05

  实时抓取网页数据(2021-11-16在开发Web应用中的应用模式

)

  2021-11-16一. Web 应用模式

  在开发Web应用程序时,有两种应用模式:

  知识储备:什么是动态页面(查数据库),什么是静态页面(静态html)

  # 判断条件: 根据html页面内容是写死的还是从后端动态获取的

静态网页: 页面上的数据是直接写死的 万年不变

动态网页: 数据是实时获取的. 如下例子:

1.后端获取当前时间展示到html页面上

2.数据是从数据库中获取的展示到html页面上

# 总结

静: 页面数据写死的

动: 查数据库

  1. 前后端不分离

  前后端混合开发(前后端不分离):返回html的内容,需要写一个模板

  Key:请求动态页面,返回HTML

  

  2. 前后端分离

  前后端分离:只关注写后端接口,返回json、xml格式数据

  Key:去静态文件服务器请求静态页面,静态文件服务器返回静态页面。然后JS请求django后端,django后端返回json或者xml格式的数据

  # xml格式

lqz

# json格式

{"name":"lqz"}

# asp 动态服务器页面. jsp Java服务端网页

# java---> jsp

https://www.pearvideo.com/category_loading.jsp

#php写的

http://www.aa7a.cn/user.php

# python写的

http://www.aa7a.cn/user.html

# 动静态页面存在的主要作用

优化查询

  

  3. 总结

  # 动静态页面

静态: 页面内容写死的, 内容都是固定不变的.

动态: 页面内容含有需要从数据库中获取的.

# 前后端不分离

特点: 请求动态页面, 返回HTML数据或者重定向

# 前后端分离特点

特点:

请求静态页面(向静态服务器), 返回静态文件

请求需要填充的数据, 返回js或者xml格式数据

  二. API 接口

  为了在团队内部形成共识,防止个人习惯差异造成的混乱,我们需要找到一个大家都觉得很好的接口实现规范,并且这个规范可以让后端写的接口一目了然,减少双方的摩擦。合作成本。

  通过网络,指定前后信息交互规则的url链接,即前后信息交互的媒介

  Web API接口和一般的url链接还是有区别的。Web API 接口具有以下四个特点。

  请求方法:get、post、put、patch、delete

  请求参数:json或xml格式的key-value类型数据

  响应结果:json或xml格式的数据

  # xml格式

https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295&region=%E4%B8%8A%E6%B5%B7&query=%E8%82%AF%E5%BE%B7%E5%9F%BA&output=xml

#json格式

https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295&region=%E4%B8%8A%E6%B5%B7&query=%E8%82%AF%E5%BE%B7%E5%9F%BA&output=json

{

"status":0,

"message":"ok",

"results":[

{

"name":"肯德基(罗餐厅)",

"location":{

"lat":31.415354,

"lng":121.357339

},

"address":"月罗路2380号",

"province":"上海市",

"city":"上海市",

"area":"宝山区",

"street_id":"339ed41ae1d6dc320a5cb37c",

"telephone":"(021)56761006",

"detail":1,

"uid":"339ed41ae1d6dc320a5cb37c"

}

...

]

}

  总结

  什么是API接口?

API接口就是前后端信息交互的媒介(提示: 表示的是前后端之间)

  三. 接口测试工具:Postman

  Postman 是一个界面调试工具。它是一款免费的可视化软件,支持各种操作系统平台。它是测试接口的首选工具。

  Postman可以直接到官网下载:傻瓜式安装。

  

  

  

  

  四. RESTful API 规范

  

  REST的全称是Representational State Transfer,中文意思是表示(编者注:通常翻译为Representational State Transfer)。它于 2000 年首次出现在 Roy Fielding 的博士论文中。

  RESTful 是一种用于定义 Web API 接口的设计风格,特别适用于前后端分离的应用模式。

  这种风格的概念是后端开发任务是提供数据,对外提供数据资源的访问接口。因此,在定义接口时,客户端访问的URL路径代表要操作的数据资源。

  事实上,我们可以使用任何框架来实现符合restful规范的API接口。

  1. 数据安全

  # url链接一般都采用https协议进行传输

# 注:采用https协议,可以提高数据交互过程中的安全性

  2. 接口特征表示

  # 用api关键字标识接口url:

[https://api.baidu.com](https://api.baidu.com/)

https://www.baidu.com/api

# 注:看到api字眼,就代表该请求url链接是完成前后台数据交互的

  3. 多个数据版本共存

  # 在url链接中标识数据版本

https://api.baidu.com/v1

https://api.baidu.com/v2

# 注:url链接中的v1、v2就是不同数据版本的体现(只有在一种数据资源有多版本情况下)

  4. 数据是资源,都用名词(可以是复数)

  # 接口一般都是完成前后台数据的交互,交互的数据我们称之为资源

https://api.baidu.com/users

https://api.baidu.com/books

https://api.baidu.com/book

# 注:不要出现操作资源的动词,错误示范:https://api.baidu.com/delete-user

# 例外: 特殊的接口可以出现动词,因为这些接口一般没有一个明确的资源,或是动词就是接口的核心含义

https://api.baidu.com/place/search

https://api.baidu.com/login

  5. 资源操作由请求方法(方法)决定

  # 操作资源一般都会涉及到增删改查,我们提供请求方式来标识增删改查动作

https://api.baidu.com/books - get请求: 获取所有书

https://api.baidu.com/books/1 - get请求: 获取主键为1的书

https://api.baidu.com/books - post请求: 新增一本书

https://api.baidu.com/books/1 - put请求: 整体修改主键为1的书

https://api.baidu.com/books/1 - patch请求: 局部修改主键为1的书

https://api.baidu.com/books/1 - delete请求:删除主键为1的书

  6. 过滤,在url中以上传参数的形式传递搜索条件

  https://api.example.com/v1/zoos?limit=10 指定返回记录的数量

https://api.example.com/v1/zoos?offset=10 指定返回记录的开始位置

https://api.example.com/v1/zoos?page=2&per_page=100 指定第几页,以及每页的记录数

https://api.example.com/v1/zoos?sortby=name&order=asc 指定返回结果按照哪个属性排序,以及排序顺序

https://api.example.com/v1/zoos?animal_type_id=1 指定筛选条件

  7. 响应状态码

  # 正常响应

响应状态码2xx

200:常规请求

201:创建成功

# 重定向响应

响应状态码3xx

301:永久重定向

302:暂时重定向

# 客户端异常

响应状态码4xx

403:请求无权限

404:请求路径不存在

405:请求方法不存在

# 服务器异常

响应状态码5xx

500:服务器异常

  8. 错误处理,应该返回错误信息,error作为key

  {

error: "无权限操作"

}

  9. 返回结果。对于不同的操作,服务器返回给用户的结果应符合以下规范

  GET /collection 返回资源对象的列表(数组) 多个[{}],

GET /collection/resource 返回单个资源对象 单个{}

POST /collection 返回新生成的资源对象

PUT /collection/resource 返回完整的资源对象

PATCH /collection/resource 返回完整的资源对象

DELETE /collection/resource 返回一个空文档

  10. 需要url请求的资源需要请求链接才能访问资源

  # Hypermedia API,RESTful API最好做到Hypermedia,即返回结果中提供链接,连向其他API方法,使得用户不查文档,也知道下一步应该做什么

{

"status": 0,

"msg": "ok",

"results":[

{

"name":"肯德基(罗餐厅)",

"img": "https://image.baidu.com/kfc/001.png"

}

...

]

}

  更好的界面回报

  # 响应数据要有状态码、状态信息以及数据本身

{

"status": 0,

"msg": "ok",

"results":[

{

"name":"肯德基(罗餐厅)",

"location":{

"lat":31.415354,

"lng":121.357339

},

"address":"月罗路2380号",

"province":"上海市",

"city":"上海市",

"area":"宝山区",

"street_id":"339ed41ae1d6dc320a5cb37c",

"telephone":"(021)56761006",

"detail":1,

"uid":"339ed41ae1d6dc320a5cb37c"

}

...

]

}

  11. 总结

  # 关键字: HTTPS协议, api, 版本, 资源标识, 请求方式, url传参标识, 响应状态码, 错误信息, 不同的操作返回不同的结果, 返回url

1. 传输数据用HTTPS协议

2. 接口具有标识性

https://api.baidu.com

https://www.baidu.com/api

3. 接口具有版本标识性

https://api.baidu.com/v1

https://api.baidu.com/v2

4. 核心: 接口对资源具有标识性(名词)

https://api.baidu.com/books

https://api.baidu.com/book

5. 核心: 通过请求的方式来决定对数据的操作方式

get获取, post增加, put整体更新, patch局部更新, delete删除

6. 通过url传参数的形式传递搜索条件

https://api.baidu.com/books?limit=10

7. 响应状态码

200常规请求 201创建成功请求

301永久重定向 302暂时重定向

403请求无权限 404请求无路径 405请求方法不存在

500服务端异常

8. 错误信息

{

'error': '无权限操作'

}

9. 针对不同的操作, 返回不同的返回结果

get 获取多个[{}], 获取单个{}

post 返回新增的

put 返回修改后所有的内容(包括没修改的. 全部)

patch 返回修改后所有的内容(包括没修改的. 全部)

delete 返回空文档

10. 基于请求响应过后返回内容中, 可以带url地址

{

"status": 0,

"msg": "ok",

"results":[

{

"name":"肯德基(罗餐厅)",

"img": "https://image.baidu.com/kfc/001.png"

}

...

]

}

  五. 序列化

  API接口开发的核心和最常见的过程是序列化。所谓序列化,就是将数据转换成一种格式。序列化可以分为两个阶段:

  序列化:将我们识别的数据转换成指定的格式,提供给其他人。

  例如:我们在django中获取的数据默认是模型对象,但是模型对象数据不能直接提供给前端或者其他平台,所以需要将数据序列化成字符串或者json数据提供给其他 。

  反序列化:将他人提供的数据转换/恢复为我们需要的格式。

  比如前端js提供的json数据是python的字符串,我们需要将其反序列化为模型类对象,这样我们才能将数据保存到数据库中。

  六. Django Rest_Framework

  核心思想:减少编写api接口的代码

  Django REST framework是一个基于Django的Web应用开发框架,可以快速开发REST API接口应用。在REST框架中,提供了序列化器Serialzier的定义,可以帮助我们简化序列化和反序列化的过程。不仅如此,它还提供了丰富的类视图、扩展类和视图集来简化视图的编写。REST框架还提供了认证、权限、限流、过滤、分页、接口文档等功能支持。REST framework 提供API 的Web 可视化界面,方便查看测试界面。

  

  官方文档:

  github:

  特征

  提供了定义序列化器Serializer的方法,可以快速根据 Django ORM 或者其它库自动序列化/反序列化;

提供了丰富的类视图、Mixin扩展类,简化视图的编写;

丰富的定制层级:函数视图、类视图、视图集合到自动生成 API,满足各种需要;

多种身份认证和权限认证方式的支持;[jwt]

内置了限流系统;

直观的 API web 界面;

可扩展性,插件丰富

  七. drf的安装和简单使用

  # 安装:pip install djangorestframework==3.10.3

# 使用

# 1. 在setting.py 的app中注册

INSTALLED_APPS = [

'rest_framework'

]

# 2. 在models.py中写表模型

class Book(models.Model):

nid=models.AutoField(primary_key=True)

name=models.CharField(max_length=32)

price=models.DecimalField(max_digits=5,decimal_places=2)

author=models.CharField(max_length=32)

# 3. 新建一个序列化类

from rest_framework.serializers import ModelSerializer

from app01.models import Book

class BookModelSerializer(ModelSerializer):

class Meta:

model = Book

fields = "__all__"

# 4. 在视图中写视图类

from rest_framework.viewsets import ModelViewSet

from .models import Book

from .ser import BookModelSerializer

class BooksViewSet(ModelViewSet):

queryset = Book.objects.all()

serializer_class = BookModelSerializer

# 5. 写路由关系

from app01 import views

from rest_framework.routers import DefaultRouter

router = DefaultRouter() # 可以处理视图的路由器

router.register('book', views.BooksViewSet) # 向路由器中注册视图集

# 将路由器中的所以路由信息追到到django的路由列表中

urlpatterns = [

path('admin/', admin.site.urls),

]

#这是什么意思?两个列表相加

# router.urls 列表

urlpatterns += router.urls

# 6. 启动,在postman中测试即可

  八.在CBV中继承查看源码分析1.代码分析

  入口点: urls.py 中的 .as_view() 方法

  path('books1/', views.Books.as_view())

  视图中的 Books 类

  class Books(View):

# 如果有个需求,只能接受get请求

http_method_names = ['get', ]

def get(self, request):

print(self.request) # 看: 这里可以通过self.request进行获取到request方法

return HttpResponse('ok')

  项目启动时执行

  @classonlymethod

def as_view(cls, **initkwargs):

...

def view(request, *args, **kwargs):

...

...

return view

  路由匹配时执行,实例化执行的类,通过执行路由匹配中类实例化的对象,执行继承父类View中定义的dispatch方法。

  def view(request, *args, **kwargs):

self = cls(**initkwargs)

if hasattr(self, 'get') and not hasattr(self, 'head'):

self.head = self.get

self.request = request

self.args = args

self.kwargs = kwargs

return self.dispatch(request, *args, **kwargs)

  在dispatch方法中使用反射获取请求的类型,执行对应类中定义的方法

  def dispatch(self, request, *args, **kwargs):

# Try to dispatch to the right method; if a method doesn't exist,

# defer to the error handler. Also defer to the error handler if the

# request method isn't on the approved list.

if request.method.lower() in self.http_method_names:

handler = getattr(self, request.method.lower(), self.http_method_not_allowed)

else:

handler = self.http_method_not_allowed

return handler(request, *args, **kwargs)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线