专访视频:搜索关键词采集YouTube视频字幕

优采云 发布时间: 2022-10-12 23:13

  专访视频:搜索关键词采集YouTube视频字幕

  使用python采集YouTube视频字幕本博客纯干货!!!最近接到了领导安排的采集任务,拍摄采集全球最大视频分享网站YouTube的视频字幕。分析目标网站,当我打开视频链接时开始捕捉

  使用 python采集YouTube 视频字幕

  本博客纯干货!!!

  最近接到了领导安排的采集任务,拍摄采集全球最大视频分享网站YouTube的视频字幕。

  分析目标网站并开始抓包

  当我打开视频链接并点击显示字幕按钮时,通过浏览器捕获了一个类似timedtext的请求,返回的内容就是我想要的数据——每个时间点的字幕。

  解析视频ID、签名、key、过期等参数的URL,每次签名变化时,开始通过js突破参数。该过程在此不作详细描述。

  终于在视频源码中找到了这样一个js

  "playerCaptionsTracklistRenderer\":{\"captionTracks\":[{\"baseUrl\":\"https:\/\/\/api\/timedtext?xorp=True\\u0026signature=DC15F46CCF5A97B616CFF6EA13126EB34E24B848.404E61B37E4E1AE37BF2C865Auzh2= \83F46CCF5A97B616CFF6EA13126EB34E24B848.4004E61B37E4E1AE37BF2C865AAu62 -CN\\u0026sparams=caps%2Cv%2Cxoaf%2Cxorp%2Cexpire\\u0026expire=1566051203\\u0026caps=\\u0026key=yttt1\\u0026xoaf=1\\u0026v=7j0xuYKZO4g\\u0026lang=en\\ u0026name=英文\",

  原来我一直试图解析的 URL 暴露在源代码中。格式化代码后知道是json字符串,json里面有很多视频信息,比如发布时间、标题、介绍、点击量等;兴奋的?

  

  接下来,通过正则表达式匹配所需的 URL

  ytplayer_config = json.loads(re.search('ytplayer.config\s*=\s*([^\n]+?});', response.text).group(1))

  caption_tracks = json.loads(ytplayer_config['args']['player_response'])['captions']['playerCaptionsTracklistRenderer']['captionTracks']

  对于caption_tracks中的c:

  url = c["baseUrl"] # &tlang=zh-Hans返回的字幕是中文,&tlang=en-Hans返回的字幕是英文

  最后通过解析python请求得到字幕URL,得到字幕数据。你完成了

  只有带字幕的视频才会有baseUrl的值,没有字幕的视频会报异常。

  YouTube 列表翻页

  字幕解析完毕,下一步批量处理采集需要的视频字幕。

  需要:

  通过在 采集 结果中搜索所有字幕。

  

  分析:

  视频翻页是基于ajax请求的,源码中的信息永远是第一页的数据。

  ok 好吧,既然如此,我们来分析一下ajax请求。我喜欢用谷歌浏览器,打开开发者工具,网络,抓包。

  鼠标下拉,会自动请求,是post请求,返回的视频信息一目了然。

  很高兴看到这一点,离胜利不远了。不过,我们先看看headers和send post参数,然后再说wtf。. .

  一万只羊驼在奔跑。我标记了所有加密的参数。前端和后端交互。既然是过去发送的数据,那肯定是在前端生成的。至于发生了什么,会一步步分析。,最后。我没有分析。. . 刚开始查看旁边的js文件,参数确实是js生成的,但是。. . tmd 写得太复杂了。. . 能力有限,无法解决。你刚刚放弃了吗?当然不是,否则你不会看到这个文章。于是,我灵机一动,在地址栏输入&page=​​,结果果然返回了视频。. . 哈哈哈,当时真的很开心。因为前端页面没有翻页按钮,所以没想到居然会这样翻页。. . 哈哈

  下一步就是匹配每个页面上的视频链接——访问——获取字幕

  回家吃饭睡觉

  感谢收看!

  秘密:搜索引擎潜规则:精文转载与采集天壤地别

  转载会降级吗?在搜索引擎优化中,内容是网站的命脉,所以可以是原创的原创,但不能是原创>的伪原创,甚至工具采集。但是,不管伪原创>能否真正达到内容优化的效果,文章转载和采集在本质上是等价的吗?大多数人认为“转载”是“采集”,而主要区别在于,“转载”是人为的行为,而“采集”更多的特征是人工编程代码。殊不知,在搜索引擎优化的过程中,搜索引擎的潜规则对两者有着完全不同的刻画。本文对此进行分析:

  一:转载和采集有什么区别

  互联网上的每日新闻中有多少是重复信息?和百度新闻一样,同样的新闻也会被搜索引擎高效搜索收录,也会列出多少相似的新闻来源被省略。因此,我们可以得出结论,搜索引擎可能不会反对规则中的“文章转载”。对于采集网站来说,大部分网站总是处于K的边缘,存在很多风险。哪些因素决定了“转载”和“采集”的区别?Binary认为,适度或高效的转载文章有利于网站的优化,因为网络天生就是一个资源共享的平台,如果失去了这个特性,就不能称为互联网。和“采集”,为什么它被归类为“垃圾”?原因是“采集”程序无法理解文章的优劣,没有优劣之分采集必然会造成一个垃圾站一个接一个。在人工转载的过程中,内容的质量是立竿见影的。做个正式的网站,没人会盲目转载,不然按照采集的规则不是更好吗?因此,我决定“转载”,“采集的本质”是有没有人为干预,搜索引擎给予的权重自然应该不同。而且没有优劣之分好坏采集必然会造成一个又一个垃圾站。在人工转载的过程中,内容的质量是立竿见影的。做个正式的网站,没人会盲目转载,不然按照采集的规则不是更好吗?因此,我决定“转载”,“采集的本质”是有没有人为干预,搜索引擎给予的权重自然应该不同。而且没有优劣之分好坏采集必然会造成一个又一个垃圾站。在人工转载的过程中,内容的质量是立竿见影的。做个正式的网站,没人会盲目转载,不然按照采集的规则不是更好吗?因此,我决定“转载”,“采集的本质”是有没有人为干预,搜索引擎给予的权重自然应该不同。

  

  2:如何推广有利于优化的转载

  以红黑联盟站长网文章为例,为什么有的文章被攻击了上百次,而有的文章却被指向了可数次?究其原因,在于内容的“质量”,优质的内容有利于搜索引擎优化。如果没有选择,就一味的使用“采集规则”,即使内容被成功转载收录,网站的权重依然很低,起不到多少流量影响。但是为什么适度的转载对搜索引擎优化有利呢?以我关注的唐世军红黑联盟博客为例,每天转载红黑联盟站长的优质软文,最终结果到达百度、谷歌、秒。收到结果,甚至在关键字上表现良好。什么样的软文适合转载?蜘蛛不会识别 文章 的质量好坏,我们将进一步讨论:

  

  A:信息的即时性:即时性始终是互联网上信息传输的最重要特征。互联网上信息原创内容的搜索引擎给予了很高的权重,但也可以转载。这个权重的分配是按照转载的顺序来确定的。个人认为,转载时间越早,搜索引擎赋予的权重越高。在这个比喻下,转载速度越慢,效果就越小,直到出现最终或“高度重复”的内容,权利被降级。

  B:转发新鲜的话题,重复转发常见的话题,即使人们不反向阅读,搜索引擎也会反向看到。即使在 原创收录 上,重复出现的话题在 收录 上的及时性也远不如新颖的话题。因此,我们可以判断出新颖的主题和内容更有利于搜索引擎优化。所以,在文章的每日转载中,新鲜的话题总是成为最大的传播点。一个老生常谈的话题,就算不影响爬虫,会给你带来多少流量?不是人们不喜欢看,只是网上类似的话题太多了。新鲜的话题可以让你保持高排名。

  C:转载文章字数的选择,要知道什么样的文章最适合搜索引擎优化。取文章的字数,文章的字数比较适合网站优化呢?很多站长写原创两三百字,转载文章两三百字。这有用吗?网站为了优化权重的效果,字数要保持在500字以上,搜索引擎要有分判断标准。不然怎么能匆匆忙忙用几百字写出文章的核心?这显示了质量。所以,在内容转载的路上,在转载高质量的文章,有利于搜索引擎优化的时候,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线