从网页抓取视频(我想从一个网站上搜刮视频,但在一个特别难找网站)
优采云 发布时间: 2021-12-06 17:17从网页抓取视频(我想从一个网站上搜刮视频,但在一个特别难找网站)
所以我想从 网站 搜索视频帧,但我在一个特别困难的 网站 上没有运气。我是网络抓取的新手,所以我可能会错过一些重要的东西。存在
我对其他 网站 的处理是通过 youtube dl 和 ffmpeg 实现的。youtube dl 支持这个 网站,但它不再起作用了。我想写一个新的提取器,因为我做了其他网站,但是这个网站问题似乎不同。获取视频的 .mp4 链接很容易,但很难让它工作,即显示 HTML 视频播放器而不是 403:Forbidden 或“错误的 cookie”消息。存在
我想我必须模仿浏览器请求打开链接,但我不确定我错过了什么。到目前为止,我试图找出问题所在:
使用 网站 的当前(不工作)实现来运行 youtube-dl。它可以成功获取.mp4 链接,但永远无法访问它。
输出:
59378: Downloading webpage
WARNING: unable to extract description; please report this issue on https://yt-dl.org/bug . Make sure you are using the latest version; type youtube-dl -U to update. Be sure to call youtube-dl with the --verbose flag and include its complete output.
ERROR: unable to download video data: HTTP Error 403: Forbidden
使用 python 请求库。我使用会话尝试将 cookie 从常规视频页面保存到视频的真实 URL。它也成功获得了 .mp4 链接,但它永远无法访问它。代码显示如下:
^{pr2}$
和输出:
Video URL: REAL VIDEO (.MP4) URL HERE
b'Wrong Cookie'
Done.
打开常规视频页面,然后在 Selenium 中打开 .mp4 页面。如果我向常规页面发出 get 请求,.mp4 页面可以工作,但它不可靠,因为我偶尔会收到 403 或“坏 cookie”消息。如果我向常规页面发出两个 get 请求,.mp4 页面将 100% 正常工作。所以我的代码是:
它的输出是Selenium每次都成功打开.mp4视频页面,但是我不知道如何在不下载整个内容的情况下使用它来获取视频帧。
每个 网站 都不一样,所以我留下了一个视频参考,让一切变得更容易。不过,这个网站 有 NSFW 的内容,所以我想我不能在这里放链接。这是一个贴纸盒,其中收录我能找到的最多 SFW 视频的链接。建议酌情处理。
如果您对此有任何想法,请发表评论。我被困住了。