谷歌抓取网页视频教程(网页you-get下载视频的方法-You-Get)

优采云 发布时间: 2022-03-20 22:04

  谷歌抓取网页视频教程(网页you-get下载视频的方法-You-Get)

  You-Get 是一个小型命令行实用程序,用于从 Web 下载媒体内容(视频、音频、图像),以防万一没有其他方便的方法。

  以下是从您获得的此网页下载视频的方法:

  $ you-get http://www.fsf.org/blogs/rms/20140407-geneva-tedx-talk-free-software-free-society

Site: fsf.org

Title: TEDxGE2014_Stallman05_LQ

Type: WebM video (video/webm)

Size: 27.12 MiB (28435804 Bytes)

Downloading TEDxGE2014_Stallman05_LQ.webm ...

100.0% ( 27.1/27.1 MB) ├████████████████████████████████████████┤[1/1] 12 MB/s

  这就是您可能想要使用它的原因:

  · 你喜欢互联网上的东西,只是想为自己的乐趣下载它。

  · 您可以通过电脑在线观看喜欢的视频,但无法保存。你觉得你无法控制你的电脑。(这不是开放网络应该如何工作的。)

  · 你想摆脱任何封闭源技术或专有的 JavaScript 代码,并禁止在你的计算机上运行 Flash 之类的东西。

  · 你是黑客文化和自由软件的忠实拥护者。

  你得到什么可以为你做:

  · 从 YouTube、优酷、Niconico 等流行的 网站 下载视频/音频(已查看)

  · 在媒体播放器中流式传输在线视频。没有网络浏览器,没有更多的广告。

  · 通过抓取网页下载图像(感兴趣的)。

  · 下载任意非 HTML 内容,即二进制文件。

  感兴趣的?现在,和。

  你是 Python 程序员吗?然后查看源代码并 fork !

  

  安装

  先决条件

  以下依赖项是必需的并且必须单独安装,除非您在 Windows 上使用预构建包或巧克力包:

  蟒蛇 3

  FFmpeg(强烈推荐)或

  Libav(可选)

  RTMPDump

  选项1:通过pip安装you-get的官方版本在PyPI上发布,可以通过以下方式访问

  pip 包管理器可以很容易地从 PyPI 镜像安装。

  请注意,您必须使用 Python 3 版本的 pip:

   $ pip3 install you-get

  选项 2:将以下行添加到您的 .zshrc 通过抗原安装:

  antigen bundle soimort/you-get

  选项 3:使用预构建包(仅限 Windows)从以下位置下载 exe(独立)或 7z(包括所有依赖项):

  [https](https://github.com/soimort/you-get/releases/latest):[//github.com/soimort/you-get/releases/latest](https://github.com/soimort/you-get/releases/latest)。

  选项 4:从 GitHub 下载您可以下载稳定版(与 PyPI 上的最新版本相同)或开发版(更多修复、不稳定功能)分支。解压缩并将收录 you-get 脚本的目录放入 PATH 中。或者,运行

  $ [sudo] python3 setup.py install

  要么

  $ python3 setup.py install --user

  将 you-get 安装到永久路径。

  选项 5:Git 克隆 这是所有开发人员推荐的方法,即使您不经常使用 Python 编码。

  $ git clone git://github.com/soimort/you-get.git

  然后将克隆的目录放在您的 PATH 中,或运行 ./setup.py install 以将 you-get 安装到永久路径。

  选项 6:使用 Chocolatey(仅限 Windows)

  > choco install you-get

  选项 7:自制软件(仅限 Mac)

  您可以通过以下方式轻松安装:

  $ brew install you-get

  Shell 补全 Bash、Fish 和 Zsh 补全定义可以在 contrib/completion 中找到。请参阅您的 shell 手册以了解如何利用它们。

  升级

  根据您选择安装的选项,您可以通过以下方式升级:

  $ pip3 install --upgrade you-get

  或通过以下方式下载最新版本:

  $ you-get https://github.com/soimort/you-get/archive/master.zip

  或使用巧克力包管理器:

  > choco upgrade you-get

  要在不乱扔 pip 的情况下获取最新的开发分支,您可以尝试:

  $ pip3 install --upgrade git+https://github.com/soimort/you-get@develop

  入门

  下载视频

  当您收到感兴趣的电影时,可以使用 --info/ -i 选项查看所有可用的质量和格式:

  $ you-get -i 'https://www.youtube.com/watch?v=jNQXAC9IVRw'

site: YouTube

title: Me at the zoo

streams: # Available quality and codecs

[ DEFAULT ] _________________________________

- itag: 43

container: webm

quality: medium

size: 0.5 MiB (564215 bytes)

# download-with: you-get --itag=43 [URL]

- itag: 18

container: mp4

quality: medium

# download-with: you-get --itag=18 [URL]

- itag: 5

container: flv

quality: small

# download-with: you-get --itag=5 [URL]

- itag: 36

container: 3gp

quality: small

# download-with: you-get --itag=36 [URL]

- itag: 17

container: 3gp

quality: small

# download-with: you-get --itag=17 [URL]

  默认情况下,标记的格式 DEFAULT 是您将获得的。如果这看起来很酷,你下载它:

  $ you-get 'https://www.youtube.com/watch?v=jNQXAC9IVRw'

site: YouTube

title: Me at the zoo

stream:

- itag: 43

container: webm

quality: medium

size: 0.5 MiB (564215 bytes)

# download-with: you-get --itag=43 [URL]

Downloading zoo.webm ...

100.0% ( 0.5/0.5 MB) ├████████████████████████████████████████┤[1/1] 7 MB/s

Saving Me at the zoo.en.srt ...Done.

  (如果 YouTube 视频有任何字幕,它将与 SubRip 字幕格式的视频文件一起下载。)或者,如果您喜欢不同的格式(mp4),只需使用您获得的显示选项:

  $ you-get --itag=18 'https://www.youtube.com/watch?v=jNQXAC9IVRw'

  注意:

  · 此时,我们的大部分支持网站一般不实现格式选择;在这种情况下,下载的默认格式是最高质量的格式。

  · ffmpeg 是下载和加入流媒体的多个部分(例如在一些 网站 上,例如优酷)以及 1080p 或高分辨率 YouTube 视频所必需的依赖项。

  如果您不想在下载后收录视频部分,请使用 --no-merge/ -n 选项。

  下载其他任何东西

  如果您已有所需资源的 URL,则可以直接从以下 URL 下载:

  $ you-get https://stallman.org/rms.jpg

Site: stallman.org

Title: rms

Type: JPEG Image (image/jpeg)

Size: 0.06 MiB (66482 Bytes)

Downloading rms.jpg ...

100.0% ( 0.1/0.1 MB) ├████████████████████████████████████████┤[1/1] 127 kB/s

  否则,you-get 将抓取页面并尝试找出您是否感兴趣:

  $ you-get http://kopasas.tumblr.com/post/69361932517

Site: Tumblr.com

Title: kopasas

Type: Unknown type (None)

Size: 0.51 MiB (536583 Bytes)

Site: Tumblr.com

Title: tumblr_mxhg13jx4n1sftq6do1_1280

Type: Portable Network Graphics (image/png)

Size: 0.51 MiB (536583 Bytes)

Downloading tumblr_mxhg13jx4n1sftq6do1_1280.png ...

100.0% ( 0.5/0.5 MB) ├████████████████████████████████████████┤[1/1] 22 MB/s

  注意:

  此功能是实验性的,远非完美。最适合从流行的网站s,如Tumblr 和Blogger 中抓取大图,但实际上没有通用的模式可以应用于互联网上的任何网站。

  在 Google 视频中搜索和下载

  你可以传递任何你得到的东西。如果 URL 不是有效的 URL,you-get 将执行 Google 搜索并为您下载最相关的视频。(这可能不是您想看到的,但仍有可能。)

  $ you-get "Richard Stallman eats"

  暂停和恢复下载 您可以使用 Ctrl+C 中断下载。临时 .download 文件保留在输出目录中。下次使用相同参数运行 you-get 时,下载进度将从上一个会话恢复。如果文件已完全下载(删除临时 .download 扩展名),you-get 将跳过下载。

  要强制重新下载,请使用 --force/-f 选项。(警告:这样做会覆盖任何现有文件或同名的临时文件!)

  设置下载文件的路径和名称

  使用 --output-dir/ -o 选项设置路径,使用 --output-filename/ -O 设置下载文件的名称:

  $ you-get -o ~/Videos -O zoo.webm 'https://www.youtube.com/watch?v=jNQXAC9IVRw'

  暗示:

  如果您对默认视频标题(可能收录与您当前的 shell/OS/文件系统不兼容的特殊字符)有问题,这些选项很有用。

  如果您将脚本写入批处理下载文件并将其放入具有指定名称的文件夹中,这些选项也很有用。

  代理设置

  您可以通过 --http-proxy/ -x 选项指定要使用的 HTTP 代理:

  $ you-get -x 127.0.0.1:8087 'https://www.youtube.com/watch?v=jNQXAC9IVRw'

  但是,http_proxy 默认应用系统代理设置(即环境变量)。要禁用任何代理,请使用 --no-proxy 选项。

  暗示:

  如果您需要大量使用代理(如果您的网络阻塞了一些 网站),您可能希望将 you-get 与代理链一起使用并设置别名 you-get="proxychains -q you-get" (Bash)。

  对于一些网站(比如优酷),如果需要访问一些只有中国大陆地区才有的视频,可以使用特定的代理从网站中提取视频信息:--提取器代理/ -y。

  看视频

  不要下载,而是使用 --player/ -p 选项将视频提供给您选择的媒体播放器,例如 mplayer 或 vlc:

  $ you-get -p vlc 'https://www.youtube.com/watch?v=jNQXAC9IVRw'

  或者,如果您更喜欢在浏览器中观看视频,而无需广告或评论部分:

  $ you-get -p chromium 'https://www.youtube.com/watch?v=jNQXAC9IVRw'

  暗示:

  您可以使用 -p 选项启动另一个下载管理器,例如 you-get -p uget-gtk ''

  ,尽管他们可能不会一起玩得很好。

  加载 cookie

  并非所有视频都向任何人公开。如果您需要登录您的帐户来访问某些内容(例如,私人视频),您无法通过 --cookies/ -c 选项将 cookie 提供给您的浏览器。

  注意:

  到目前为止,我们支持两种格式的浏览器 cookie:Mozilla cookies.sqlite 和 Netscape cookies.txt。

  重用提取的数据

  使用 --url/ -u 获取从页面中提取的可下载资源 URL 列表。使用 --json 以 JSON 格式获取提取数据的摘要。

  警告:

  目前,该功能已

  不稳定,JSON 模式将来可能会发生重大变化。

  支持网站

  

  

  

  

  对于所有其他不在列表中的 网站,通用提取器将负责从页面中查找和下载有趣的资源。

  已知错误

  如果事情破裂并且您无法获得想要的东西,请不要惊慌。(是的,它一直在发生!)

  检查它是否已经是一个已知问题并搜索未解决的问题列表。

  如果尚未报告,请打开一个附有详细命令行输出的新问题。

  参与其中

  您可以通过 Gitter 频道 #soimort/you-get 与我们联系(这是为 Gitter 设置 IRC 客户端的方法)。如果您有一个快速的问题,请到那里。

  欢迎各种拉取请求。但是,有一些指导原则: 开发分支是您的拉取请求应该去的地方。

  记得变基。

  清楚地记录您的 PR,并在适用的情况下提供一些示例的链接以供审阅者测试。

  编写格式良好、易于理解的提交消息。

  如果您不知道如何,请查看现有的。

  我们不会要求您签署 CLA,但您必须确保您的代码可以合法地重新分发(根据 MIT 许可条款)。

  ****法律问题****

  该软件是根据 MIT 许可证分发的。

  请特别注意

  *本软件按“原样”提供,没有任何明示或暗示的保证,包括但不限于适销性、特定用途的适用性和非侵权性。

  *在任何情况下,作者或版权所有者均不对因本软件或其他使用或与软件的其他交易而引起的任何索赔、损害或其他责任(无论是合同、侵权或其他)承担责任。

  翻译*敏*感*词*类的话:

  *如果您对本软件的使用构成侵犯版权的基础,或者您将本软件用于任何其他非法目的,作者不承担任何责任。

  *我们只在此处发送代码,您如何使用它取决于您。

  GitHub主页:

  参考博客:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线