网页视频抓取工具 知乎( 请求头中如果没有-agent客户端配置,服务端可能将你当做一个非法用户)

优采云 发布时间: 2021-10-07 01:04

  网页视频抓取工具 知乎(

请求头中如果没有-agent客户端配置,服务端可能将你当做一个非法用户)

  

  请求:用户通过浏览器(套接字客户端)将自己的信息发送到服务器(套接字服务器)

  响应:服务器接收请求,分析用户发送的请求信息,然后返回数据(返回的数据可能收录其他链接,如图片、JS、CSS等)

  PS:收到响应后,浏览器将解析其内容以显示给用户,而爬虫程序将在模拟浏览器发送请求后提取有用数据,然后接收响应

  四、请求

  1、请求方法:

  常见的请求方法:get/post

  2、请求的URL

  URL全局统一资源定位器用于定义Internet上的唯一资源。例如,图片、文件和视频可以由URL唯一确定

  URL编码

  /S?WD=图片

  图片将被编码(参见示例代码)

  网页的加载过程是:

  加载网页时,通常先加载文档

  解析文档时,如果遇到链接,则会为超链接启动下载图片的请求

  3、请求头

  用户代理:如果请求头中没有用户代理客户端配置,服务器可能会将您视为非法用户主机

  Cookies:Cookies用于保存登录信息

  注意:通常,爬虫程序会添加请求头

  

  

  请求标头中要注意的参数:

  (1)参考者:访问源来自何处(对于一些大型的网站,将通过参考者制定防盗链策略;所有爬行动物也应注意模拟)

  (2)用户代理:已访问浏览器(待添加,否则将被视为爬虫)

  (3)Cookie:应小心携带请求标头

  4、请求正文

  请求主体

  在get模式下,请求正文没有内容(get请求的请求正文放在URL后面的参数中,可以直接看到)

  在post模式下,请求主体是格式数据

  附言:

  1、登录窗口、文件上载和其他信息将附加到请求正文

  2、登录,输入错误的用户名和密码,然后提交。您可以看到帖子。正确登录后,页面通常会跳转,您无法捕获帖子

  五、回应

  1、响应状态代码

  200:成功

  301:代表跳跃

  404:文件不存在

  403:无法访问

  502:服务器错误

  2、应答头

  响应头中需要注意的参数:

  (1)设置Cookie:bdsvrtm=0;path=/:可能有多个命令浏览器保存Cookie

  (2)内容位置:服务器响应标头收录位置。返回浏览器后,浏览器将再次访问另一页

  3、预览是该网页的源代码

  JSO数据

  例如网页、HTML、图片

  二进制数据等

  六、总结

  1、总结爬虫程序过程:

  爬网-->解析-->存储

  2、爬虫程序所需的工具:

  请求库:requests,selenium(它可以驱动浏览器解析和呈现CSS和JS,但它有性能缺点(将加载有用和无用的网页);)

  解析库:普通、漂亮的汤、pyquery

  存储库:文件、mysql、mongodb、redis

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线