专访视频:搜索关键词采集YouTube视频字幕

优采云发布时间: 2022-10-12 23:13

　　使用python采集YouTube视频字幕本博客纯干货！！！最近接到了领导安排的采集任务，拍摄采集全球最大视频分享网站YouTube的视频字幕。分析目标网站，当我打开视频链接时开始捕捉

　　使用 python采集YouTube 视频字幕

　　本博客纯干货！！！

　　最近接到了领导安排的采集任务，拍摄采集全球最大视频分享网站YouTube的视频字幕。

　　分析目标网站并开始抓包

　　当我打开视频链接并点击显示字幕按钮时，通过浏览器捕获了一个类似timedtext的请求，返回的内容就是我想要的数据——每个时间点的字幕。

　　解析视频ID、签名、key、过期等参数的URL，每次签名变化时，开始通过js突破参数。该过程在此不作详细描述。

　　终于在视频源码中找到了这样一个js

　　"playerCaptionsTracklistRenderer\":{\"captionTracks\":[{\"baseUrl\":\"https:\/\/\/api\/timedtext?xorp=True\u0026signature=DC15F46CCF5A97B616CFF6EA13126EB34E24B848.404E61B37E4E1AE37BF2C865Auzh2= F46CCF5A97B616CFF6EA13126EB34E24B848.4004E61B37E4E1AE37BF2C865AAu62 -CN\u0026sparams=caps%2Cv%2Cxoaf%2Cxorp%2Cexpire\u0026expire=1566051203\u0026caps=\u0026key=yttt1\u0026xoaf=1\u0026v=7j0xuYKZO4g\u0026lang=en\ u0026name=英文\",

　　原来我一直试图解析的 URL 暴露在源代码中。格式化代码后知道是json字符串，json里面有很多视频信息，比如发布时间、标题、介绍、点击量等；兴奋的？

　　接下来，通过正则表达式匹配所需的 URL

　　ytplayer_config = json.loads(re.search('ytplayer.config\s*=\s*([^\n]+?});', response.text).group(1))

　　caption_tracks = json.loads(ytplayer_config['args']['player_response'])['captions']['playerCaptionsTracklistRenderer']['captionTracks']

　　对于caption_tracks中的c：

　　url = c["baseUrl"] # &tlang=zh-Hans返回的字幕是中文，&tlang=en-Hans返回的字幕是英文

　　最后通过解析python请求得到字幕URL，得到字幕数据。你完成了

　　只有带字幕的视频才会有baseUrl的值，没有字幕的视频会报异常。

　　YouTube 列表翻页

　　字幕解析完毕，下一步批量处理采集需要的视频字幕。

　　需要：

　　通过在采集结果中搜索所有字幕。

　　分析：

　　视频翻页是基于ajax请求的，源码中的信息永远是第一页的数据。

　　ok 好吧，既然如此，我们来分析一下ajax请求。我喜欢用谷歌浏览器，打开开发者工具，网络，抓包。

　　鼠标下拉，会自动请求，是post请求，返回的视频信息一目了然。

　　很高兴看到这一点，离胜利不远了。不过，我们先看看headers和send post参数，然后再说wtf。. .

　　一万只羊驼在奔跑。我标记了所有加密的参数。前端和后端交互。既然是过去发送的数据，那肯定是在前端生成的。至于发生了什么，会一步步分析。，最后。我没有分析。. . 刚开始查看旁边的js文件，参数确实是js生成的，但是。. . tmd 写得太复杂了。. . 能力有限，无法解决。你刚刚放弃了吗？当然不是，否则你不会看到这个文章。于是，我灵机一动，在地址栏输入&page=，结果果然返回了视频。. . 哈哈哈，当时真的很开心。因为前端页面没有翻页按钮，所以没想到居然会这样翻页。. . 哈哈

　　下一步就是匹配每个页面上的视频链接——访问——获取字幕

　　回家吃饭睡觉

　　感谢收看！

　　秘密:搜索引擎潜规则：精文转载与采集天壤地别

　　转载会降级吗？在搜索引擎优化中，内容是网站的命脉，所以可以是原创的原创，但不能是原创>的伪原创，甚至工具采集。但是，不管伪原创>能否真正达到内容优化的效果，文章转载和采集在本质上是等价的吗？大多数人认为“转载”是“采集”，而主要区别在于，“转载”是人为的行为，而“采集”更多的特征是人工编程代码。殊不知，在搜索引擎优化的过程中，搜索引擎的潜规则对两者有着完全不同的刻画。本文对此进行分析：

　　一：转载和采集有什么区别

　　互联网上的每日新闻中有多少是重复信息？和百度新闻一样，同样的新闻也会被搜索引擎高效搜索收录，也会列出多少相似的新闻来源被省略。因此，我们可以得出结论，搜索引擎可能不会反对规则中的“文章转载”。对于采集网站来说，大部分网站总是处于K的边缘，存在很多风险。哪些因素决定了“转载”和“采集”的区别？Binary认为，适度或高效的转载文章有利于网站的优化，因为网络天生就是一个资源共享的平台，如果失去了这个特性，就不能称为互联网。和“采集”，为什么它被归类为“垃圾”？原因是“采集”程序无法理解文章的优劣，没有优劣之分采集必然会造成一个垃圾站一个接一个。在人工转载的过程中，内容的质量是立竿见影的。做个正式的网站，没人会盲目转载，不然按照采集的规则不是更好吗？因此，我决定“转载”，“采集的本质”是有没有人为干预，搜索引擎给予的权重自然应该不同。而且没有优劣之分好坏采集必然会造成一个又一个垃圾站。在人工转载的过程中，内容的质量是立竿见影的。做个正式的网站，没人会盲目转载，不然按照采集的规则不是更好吗？因此，我决定“转载”，“采集的本质”是有没有人为干预，搜索引擎给予的权重自然应该不同。而且没有优劣之分好坏采集必然会造成一个又一个垃圾站。在人工转载的过程中，内容的质量是立竿见影的。做个正式的网站，没人会盲目转载，不然按照采集的规则不是更好吗？因此，我决定“转载”，“采集的本质”是有没有人为干预，搜索引擎给予的权重自然应该不同。

　　2：如何推广有利于优化的转载

　　以红黑联盟站长网文章为例，为什么有的文章被攻击了上百次，而有的文章却被指向了可数次？究其原因，在于内容的“质量”，优质的内容有利于搜索引擎优化。如果没有选择，就一味的使用“采集规则”，即使内容被成功转载收录，网站的权重依然很低，起不到多少流量影响。但是为什么适度的转载对搜索引擎优化有利呢？以我关注的唐世军红黑联盟博客为例，每天转载红黑联盟站长的优质软文，最终结果到达百度、谷歌、秒。收到结果，甚至在关键字上表现良好。什么样的软文适合转载？蜘蛛不会识别文章的质量好坏，我们将进一步讨论：

　　A：信息的即时性：即时性始终是互联网上信息传输的最重要特征。互联网上信息原创内容的搜索引擎给予了很高的权重，但也可以转载。这个权重的分配是按照转载的顺序来确定的。个人认为，转载时间越早，搜索引擎赋予的权重越高。在这个比喻下，转载速度越慢，效果就越小，直到出现最终或“高度重复”的内容，权利被降级。

　　B：转发新鲜的话题，重复转发常见的话题，即使人们不反向阅读，搜索引擎也会反向看到。即使在原创收录上，重复出现的话题在收录上的及时性也远不如新颖的话题。因此，我们可以判断出新颖的主题和内容更有利于搜索引擎优化。所以，在文章的每日转载中，新鲜的话题总是成为最大的传播点。一个老生常谈的话题，就算不影响爬虫，会给你带来多少流量？不是人们不喜欢看，只是网上类似的话题太多了。新鲜的话题可以让你保持高排名。

　　C：转载文章字数的选择，要知道什么样的文章最适合搜索引擎优化。取文章的字数，文章的字数比较适合网站优化呢？很多站长写原创两三百字，转载文章两三百字。这有用吗？网站为了优化权重的效果，字数要保持在500字以上，搜索引擎要有分判断标准。不然怎么能匆匆忙忙用几百字写出文章的核心？这显示了质量。所以，在内容转载的路上，在转载高质量的文章，有利于搜索引擎优化的时候，

0

2022-10-12

自动关键词采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

专访视频:搜索关键词采集YouTube视频字幕

0 个评论

发起人

AI时代内容工厂

专访视频:搜索关键词采集YouTube视频字幕

0 个评论

发起人

相关问题