抓取网页音频(基于所述音频片段服务器的生成方法和部署步骤(一))
优采云 发布时间: 2021-12-27 11:11抓取网页音频(基于所述音频片段服务器的生成方法和部署步骤(一))
1、 一种生成音频片段服务器的方法,其特征在于包括:获取音频数据;截取音频数据的片段数据;根据预设规则将音频片段数据部署到相应的服务器,生成音频片段服务器。
2、如权利要求1所述的方法,其特征在于,所述截取音频段数据的步骤包括: 对音频数据进行解码,得到音频数据的原创
波形数据;从数据文件头中获取原创
波形数据的采样频率、通道数、量化位数;根据采样频率、通道数和量化位数计算预设时间阈值的原创
波形数据;计算预设时间阈值的原创
波形数据,生成音频片段数据。
3、如权利要求2所述的方法,其特征在于,所述截取音频片段数据的步骤还包括: 对预设时间阈值的原创
波形数据中某段时间的尾部数据进行音量控制。淡出处理。
4、如权利要求1、2或3所述的方法,其特征在于,所述获取音频数据的步骤包括:获取所述音频数据的*敏*感*词*站点URL,所述*敏*感*词*站点URL包括*敏*感*词*站点URL,以及Torrent 站点所代表的页面中所有超链接的 URL;如果*敏*感*词*站点URL合法,则会有针对性地捕获相应的音频数据。
5、如权利要求4所述的方法,还包括: 保存捕获的音频数据以形成音频数据库。
6、如权利要求5所述的方法,还包括: 解析所述音频数据的文件头格式以确定其是否为音频数据;如果没有,从音频数据库中删除数据。
7、根据权利要求1、2或3所述的方法,其特征在于,有多个服务器,音频片段数据部署步骤包括: 为每个服务器分配标识信息;采用hash算法计算音频片段数据对应的URL的hash值;根据哈希值和服务器数量计算目标服务器的标识信息;将音频段数据部署到目标服务器。
8、一种音频搜索方法,其特征在于包括:接收用户提交的音频搜索请求;根据音频搜索请求匹配获取对应的音频数据,根据音频数据的URL从音频片段服务器获取对应的音频数据,从数据中提取对应的音频片段数据;将音频搜索结果返回给用户,音频搜索结果包括音频片段数据的信息。
9、如权利要求8所述的方法,其特征在于,音频片段服务器有多个,每个服务器带有标识信息,提取音频片段数据的步骤包括: 使用哈希算法计算音频片段数据的哈希值音频数据 URL;根据哈希值和服务器数量计算目标服务器的标识信息;从目标服务器中提取相应的音频片段数据。
10、如权利要求9所述的方法,其特征在于,所述音频数据是在音频数据库中匹配得到的,所述音频数据库是通过获取音频数据的*敏*感*词*站点的URL得到的,在*敏*感*词*站点在合法的情况下,有针对性地抓取并生成相应的音频数据;*敏*感*词*站点URL包括*敏*感*词*站点的URL和*敏*感*词*站点所代表的页面中所有超链接的URL。
11、如权利要求10所述的方法,其特征在于,所述音频片段数据是音频数据在一定时间段内的片段数据,其产生步骤为:对捕获的音频数据进行解码,获取原创
波形数据音频数据;从音频数据的文件头中获取原创
波形数据的采样频率、声道数、量化位数;根据采样频率、通道数和量化位数计算预设。设置时间阈值的原创
波形数据;对预设时间阈值的原创
波形数据进行编码,生成音频片段数据。
12、如权利要求8所述的方法,其中以嵌入在Flash程序中的网页的形式显示所述音频搜索结果。
13、一种音频搜索中预听片段的方法,其特征在于,包括:接收用户对某个音频搜索结果的获取请求,所述搜索结果中包括音频片段数据的信息,所述音频片段根据音频搜索请求匹配相应音频数据的URL得到数据,从音频片段服务器中提取;根据获取请求提取相应的音频片段数据返回给用户。
14、 一种音频片段服务器生成装置,其特征在于包括: 音频数据获取单元,用于获取音频数据;音频片段截取单元,用于截取音频数据的片段数据;音频片段部署单元,用于根据预设规则将音频片段数据部署到对应的服务器,生成音频片段服务器。
15、如权利要求14所述的装置,其特征在于,所述服务器为多个,所述音频片段部署单元还包括: 标识分配子单元,用于为每个服务器分配标识信息;哈希计算子单元用于通过哈希算法计算音频剪辑数据对应的URL的哈希值;目标服务器确定子单元,用于根据哈希值和服务器数量信息计算目标服务器的身份;音频段定位子单元,用于将音频段数据部署到目标服务器。
16、 一种音频搜索装置,其特征在于包括: 音频片段服务器,用于存储音频片段数据;搜索请求接收单元,用于接收用户提交的音频搜索请求;匹配单元,用于根据音频搜索请求进行匹配,得到相应的音频数据,并根据音频数据的URL从音频片段服务器中提取相应的音频片段数据;搜索结果返回单元,用于将音频搜索结果返回给用户,音频搜索结果包括音频片段数据的信息。
17、一种音频搜索中预听片段的装置,其特征在于包括:音频片段服务器,用于存储音频片段数据;预收听请求接收单元,用于接收用户对某个音频的搜索结果发起的获取请求,搜索结果包括音频片段数据的信息,音频片段数据是根据获取相应音频数据的URL对音频搜索请求匹配,从音频片段服务器中提取;预听段返回单元用于根据获取请求提取相应的音频段数据返回给用户。
18、一种音频搜索服务器,其特征在于包括:音频片段服务器,用于存储音频片段数据;搜索请求接收模块,用于接收用户提交的音频搜索请求;匹配模块依赖于匹配音频搜索请求,获取对应的音频数据,根据音频数据的URL从音频片段服务器中提取对应的音频片段数据;搜索结果返回模块用于将音频搜索结果返回给用户。音频搜索结果包括音频片段数据的信息;预听请求接收模块,用于接收用户对某个音频搜索结果的获取请求;