网页视频抓取工具 知乎( 请求头中如果没有-agent客户端配置,服务端可能将你当做一个非法用户)
优采云 发布时间: 2021-10-07 01:04网页视频抓取工具 知乎(
请求头中如果没有-agent客户端配置,服务端可能将你当做一个非法用户)
请求:用户通过浏览器(套接字客户端)将自己的信息发送到服务器(套接字服务器)
响应:服务器接收请求,分析用户发送的请求信息,然后返回数据(返回的数据可能收录其他链接,如图片、JS、CSS等)
PS:收到响应后,浏览器将解析其内容以显示给用户,而爬虫程序将在模拟浏览器发送请求后提取有用数据,然后接收响应
四、请求
1、请求方法:
常见的请求方法:get/post
2、请求的URL
URL全局统一资源定位器用于定义Internet上的唯一资源。例如,图片、文件和视频可以由URL唯一确定
URL编码
/S?WD=图片
图片将被编码(参见示例代码)
网页的加载过程是:
加载网页时,通常先加载文档
解析文档时,如果遇到链接,则会为超链接启动下载图片的请求
3、请求头
用户代理:如果请求头中没有用户代理客户端配置,服务器可能会将您视为非法用户主机
Cookies:Cookies用于保存登录信息
注意:通常,爬虫程序会添加请求头
请求标头中要注意的参数:
(1)参考者:访问源来自何处(对于一些大型的网站,将通过参考者制定防盗链策略;所有爬行动物也应注意模拟)
(2)用户代理:已访问浏览器(待添加,否则将被视为爬虫)
(3)Cookie:应小心携带请求标头
4、请求正文
请求主体
在get模式下,请求正文没有内容(get请求的请求正文放在URL后面的参数中,可以直接看到)
在post模式下,请求主体是格式数据
附言:
1、登录窗口、文件上载和其他信息将附加到请求正文
2、登录,输入错误的用户名和密码,然后提交。您可以看到帖子。正确登录后,页面通常会跳转,您无法捕获帖子
五、回应
1、响应状态代码
200:成功
301:代表跳跃
404:文件不存在
403:无法访问
502:服务器错误
2、应答头
响应头中需要注意的参数:
(1)设置Cookie:bdsvrtm=0;path=/:可能有多个命令浏览器保存Cookie
(2)内容位置:服务器响应标头收录位置。返回浏览器后,浏览器将再次访问另一页
3、预览是该网页的源代码
JSO数据
例如网页、HTML、图片
二进制数据等
六、总结
1、总结爬虫程序过程:
爬网-->;解析-->;存储
2、爬虫程序所需的工具:
请求库:requests,selenium(它可以驱动浏览器解析和呈现CSS和JS,但它有性能缺点(将加载有用和无用的网页);)
解析库:普通、漂亮的汤、pyquery
存储库:文件、mysql、mongodb、redis