基于混合音频的背景音乐识别方法、装置及设备--秒看技术-发明人网学术专利数据库

专利名：	基于混合音频的背景音乐识别方法、装置及设备			出售状态：	未出售
专利号：	2018104418698	专利类型：	发明专利	专利分类：	软件开发
专利权人：	联系人	出售价格：	面议

详细介绍:

技术领域

本发明涉及音频技术领域，尤其涉及一种基于混合音频的背景音乐识别方法、装置及设备。

背景技术

音频是一种非常重要的媒体，广泛应用于广播、音频检索、音频分类、音频数据库等方面。随着语音信号处理技术的发展，用于处理音频信号的系统越来越多地依赖于所处理信号的有效内容。

在诸多的节目中，不管是纯音频类节目还是音视频类节目，当节目进行到某些特定的时刻，节目会在某些背景音乐的播放下进行，然而却会有许多好听的背景音乐不为听众所知，因此即使听众有这种需求，也无法得到满足。

在某些音乐软件上一般能够实现的功能是识别出当前环境下播放的音乐，不足的是其识别出的成功率和音乐信息的准备率并不高，若是周边环境一旦嘈杂，则会大大的降低音乐软件的识别成功率，更不说使用该音乐软件来识别节目中背景音乐了。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明提供一种基于混合音频的背景音乐识别方法，包括：

获取当前电子设备播放音频对应的混合音频信息；

分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息；

根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐。

相应的，本发明还提供一种基于混合音频的背景音乐识别装置，包括：

获取模块：用于获取当前电子设备播放音频对应的混合音频信息；

分析模块：用于分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息；

第一识别模块：用于根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐。

相应的，本发明还提供一种设备，包括：

一个或多个第一处理器；

第一存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述第一存储器中并被配置为由所述一个或多个第一处理器执行；

所述一个或多个程序用于驱动所述一个或多个第一处理器构造用于执行以下步骤：

获取当前电子设备播放音频对应的混合音频信息；

分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息；

根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐。

与现有技术相比，本发明具备如下优点：

综上所述，本发明利用获取到的混合音频信息，分析得到其中包含的第一特征信息和第二特征信息，根据所述第一特征信息和第二特征信息，并通过调用相关的预置的音乐数据库识别得到所述混合音频信息对应的背景音乐名称。本发明提供的方法实现了在混合音频信号中识别出背景音乐的功能，其中混合音频信号中的特征提取主要表现为第一特征信息和第二特征信息，目的在于提供更为准确的识别结果，通过该识别结果获得准确率高的背景音乐名称。

同时，本发明也解决了在音频或音视频节目的混合音频信号中无法识别出背景音乐的难题，其在预设的分割规则下将混合音频信号分为第一音频信号和第二音频信号，通过第一音频信号和/或第二音频信号提取出的第一特征信息和/或第二特征信息，以及通过第一识别结果和第二识别结果的应用，实现双重验证，确定其混合音频信号中的包含有的背景音乐名称，保证了背景音乐名称的准确性，提高的识别的效率，增加了背景音乐名称的可靠性。。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明中一种基于混合音频的背景音乐识别方法的第一实施例流程图；

图2为本发明中一种基于混合音频的背景音乐识别方法的第二实施例流程图；

图3为本发明中一种基于混合音频的背景音乐识别方法的第三实施例流程图；

图4为本发明中一种基于混合音频的背景音乐识别方法的第四实施例流程图；

图5为本发明中一种基于混合音频的背景音乐识别方法的第五实施例流程图；

图6为本发明中一种基于混合音频的背景音乐识别方法的第六实施例流程图；

图7为本发明中一种基于混合音频的背景音乐识别方法的第七实施例流程图；

图8为本发明中一种基于混合音频的背景音乐识别装置的第一实施例结构框图；

图9为本发明中一种基于混合音频的背景音乐识别装置的第二实施例结构框图；

图10为本发明中一种基于混合音频的背景音乐识别方法的第一实施概况图；

图11为本发明中一种基于混合音频的背景音乐识别方法的第二实施概况图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明作进一步的详细说明。以下实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

请参阅附图1所示的第一实施例的流程图以及附图10的本发明所述基于混合音频的背景音乐识别方法的第一实施概况图，本发明提供一种基于混合音频的背景音乐识别方法，包括：

本发明提供一种基于混合音频的背景音乐识别方法，包括：

S101，获取当前电子设备播放音频对应的混合音频信息。

具体的，所述获取当前电子设备播放音频对应的混合音频信息，包括：

采集所述当前电子设备播放音频对应的混合音频信号；

针对所述混合音频信号进行预处理，输出预处理信号；

依据所述预处理信号，确认所述混合音频信息。

具体的，所述预处理包括对所述混合音频信号进行前期的量化处理、降噪处理、预加重处理、加窗分帧处理等。

本发明实施例中，所述混合音频信号的采集通过安装有麦克风的其他设备进行录制或者通过设置有音频捕获程序的电子设备进行捕获。

本发明实施例中，所述量化处理是将模拟信号转化为数字信号必不可少的一步。均匀量化相对比较简单，就是比如将信号在[-1,1]分成相同的很多段，要是某个值在其中某一段，就将其的值归为那一类。每一类都可以用一个唯一的二进制编码表示，采用的函数为wavread。

本发明实施例中，所述降噪处理主要通过加载降噪库对混合音频信号进行处理。其采用的函数如下实施例所示：

publicvoidprocessNoise(byte[]data){if(data＝＝null)return；

intnewDataLength＝data.length/2；

if(data.length％2＝＝1){newDataLength+＝1；}

本发明实施例中，所述预加重处理其目的是为了对混合音频信号的高频部分进行加重，去除口唇辐射的影响，增加混合音频信号的高频分辨率。一般是通过传递函数是一阶FIR高通数字滤波器来实现。设第n时刻的语音采样值为x(n)，经过预加重处理后的结果是y(n)＝x(n)-ax(n-1)，其中a为预加重系数，一般是0.9～1.0之间，通常取0.98。所述预加重的实现为：matlab：y＝filter([1-1],[1-0.98],x)。

本发明实施例中，由于混合音频信号具有短时平稳性，我们就可以把语音信号分成一些短段来进行处理，即加窗分帧处理。一般每秒的帧数是33～100帧。一般帧之间都有重叠，大多数是50％，帧长一般是10ms到30ms。

本发明实施例中，所述混合音频信息指的是其对应混合音频信号的采样频率、量化位数、声道数、比特率、电平、编码格式等。

S102，分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息。

具体的，所述分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息，包括：

根据所述混合音频信息，调用预置的分割规则将所述混合音频信号进行片段分割；

将分割后的片段音频信号进行音频特征提取，输出第一特征信息和第二特征信息；

根据输出的所述第一特征信息和第二特征信息，判断所述第一特征信息和/或第二特征信息对应的融合参数是否满足预设的融合标准；

若是，则将所述第一特征信息和/或第二特征信息对应的片段音频信号进行融合，并获取其对应的第一混合特征信息；

若否，则剔除所述第一特征信息和/或第二特征信息对应的片段音频信号，并获取其对应的第二混合特征信息。

本发明实施例中，所述第一混合特征信息指的是当所述第一特征信息和/或第二特征信息对应融合参数符合了所述融合标准时，连续性的片段音频信号融合后的所提取出的特征信息总和。所述第二混合特征信息指的是当所述第一特征信息和/或第二特征信息对应融合参数不符合了所述融合标准时剔除了对应片段音频信号后并由其中提取出的特征信息总和。

本发明实施例中，所述特征信息指的是过零率、短时能量、短时自相关函数、短时平均幅度差、短时功率谱密度、谱熵、基频、共振峰频率、梅尔倒谱系数等。

本发明实施例中，所述过零率的表达式为：

其中，sgn[]是符号函数，即：

其中N为一帧的长度，n为对应的帧数，按帧处理。过零率体现的是信号过零点的次数，体现的是频率特性。本发明实施例中需要过零点，所以在混合音频信号处理之前需要中心化处理。

本发明实施例中，短时能量的表达式为：

设第n帧语音信号x_n(m)的短时能量用E_n表示，则其计算公式为：

式中，N为信号帧长。

其中所述短时能量体现的是信号在不同时刻的强弱程度。

需要说明的是，本发明实施例中，除上述列举了过零率和短时能量的表达式之外，其余的特征信息均设置有本发明专用的表达式，在此便不多加赘述。

本发明实施例中，所述分割规则主要包括两种：一种是根据混合音频信号进行片段分割，依据于整体混合音频信号的特征信息，将混合音频信号分割为平均化的片段音频信号，其主要目的在于提高特征信息提取的效率，增加语音识别的准确性；另外一种是依据混合音频信号对应的混合特征信息，根据混合特征信息中表现出的音频类别将所述混合音频信号分割为不同音频类别的片段音频信号。

其中，本发明实施例中，所述第一特征信息的主体为纯音乐信号，所述第二特征信息的主体为除纯音乐外的声音信号，通过两种特征信息的比对，能够获得相似度更为高的背景音乐名称，进而提高了识别的准确性。

S103，根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐。

本发明实施例中，所述根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐，包括：

获取混合特征信息，将所述混合特征信息与预置的分类特征模板进行比对；

根据比对结果输出对应的音频类别，提取该音频类别对应的音频信号；

调用预置音乐数据库中对应的背景音乐特征区块；

将所述音频信号引流导入所述背景音乐特征区块中，输出其对应的背景音乐名称。

可选的，所述根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐，还包括以下步骤：

根据所述音频类别，将对应的类别的所述音频信号进行片段分割，并输出第一音频信号和第二音频信号；

针对所述第一音频信号和/或第二音频信号，进行音频识别，并输出第一识别结果和/或第二识别结果；

根据所述第一识别结果和/或第二识别结果，调用预置的第一音乐数据库和/或第二音乐数据库；

将所述第一识别结果和/或第二识别结果分别与所述第一音乐数据库和/或第二音乐数据库中的音乐信息进行匹配，并根据匹配结果确定所述背景音乐名称。

本发明实施例中，所述混合特征信息包括所述第一混合特征信息和/或第二混合特征信息。

本发明实施例中，所述预置音乐数据库指的是利用网络大数据，通过后台不断的音乐音频分析和语音识别，收集而成的附有大量音乐数据和音乐歌词、名称数据的数据集合空间。其中所述音乐数据库主要由若干不同的背景音乐特征区块组成，不同的背景音乐特征区块对应不同的背景音乐信息，并以不同的编码标识着不同的背景音乐特征。

本发明实施例中，所述预置的分类特征模板主要是依据于不同音频类别而建立的用于区分不同音频的匹配模板。所述音频类别包括且不限于以下类别：纯音乐类音频、语音类音频、歌唱类音频等。

本发明实施例中，针对所述第一音频信号和/或第二音频信号进行音频识别，主要是识别出音频信号中对应的节奏谱或者语音文字信息，将所述节奏谱输为所述第一识别结果，将所述语音文字信息输出为所述第二识别结果。通过两种识别结果的应用，实现双重验证，能够大大提高识别的准确率，以及增加了背景音乐名称的可靠性。

进一步，本发明针对整段音频信号分割出若干片段音频信号，并根据若干片段音频信号，提取出相对应的若干第一特征信息和第二特征信息，识别若干第一特征信息和第二特征信息得到若干第一识别结果和第二识别结果，通过若干的所述第一识别结果和第二识别结果，实质上还实现了多重识别结果验证校准的效果，并保证了识别结果的可靠性，大大降低了背景音乐名称的识别失误率。

请参阅附图2所示的第二实施例的流程图以及图11所示的本发明所述背景音乐识别方法的第二实施概况图，本发明提供一种基于混合音频的背景音乐识别方法，包括：

S201，采集当前电子设备播放的混合音频信号。

本发明实施例中，设置音频采样格式和采样频率，以及设置缓冲区大小是采集所述混合音频信号的前期工作，其中在设置缓冲区大小时，参数setting实际上由两部分组成，其低16位标明缓冲区的尺寸，相应的计算公式为buffer_size＝2^ssss，即若参数setting低16位的值为16，那么相应的缓冲区的大小会被设置为65536字节。参数setting的高16位则用来标明分片(fragment)的最大序号，它的取值范围从2一直到0x7FFF，其中0x7FFF表示没有任何限制。其中，本领域技术人员应当理解，“ssss”表示设置缓冲区域的大小，同时包括大小描述“ssss”本身，即表示以OUT为首地址的连续存储单元的字节数。

本发明实施例中，所述设置采样格式主要能够通过设置声卡来实现，声卡支持的所有采样格式可以在头文件soundcard.h中找到，而通过ioctl系统调用则可以很方便地更改当前所使用的采样格式。在本发明中，设置采样频率主要在调用ioctl时将参数的值设置为SNDCTL_DSP_SPEED，同时在参数中指定采样频率的数值。最常用到的几种采样频率是11025Hz、16000Hz、22050Hz、32000Hz和44100Hz。

S202，根据预置的分割规则，将所述混合音频信号分割为第一音频信号和第二音频信号。

S203，提取所述第一音频信号和第二音频信号的第一特征信息和第二特征信息。

本发明实施例中，所述第一特征信息和第二特征信息分别表示第一音频信号和第二音频信号的参数信息，所述参数包括但不限于以下内容：过零率、短时能量、短时自相关函数、短时平均幅度差、短时功率谱密度、谱熵、基频、共振峰频率、梅尔倒谱系数等。

本发明实施例中，步骤S203包括以下步骤：

针对所述第一音频信号和第二音频信号，将其导入预先设置的特征提取器，并输出音频特征曲线，以展示出该音频信号对应特征信息的变化。

S204，识别所述第一特征信息和第二特征信息，输出第一识别结果和第二识别结果。

本发明实施例中，针对所述第一音频信号和/或第二音频信号进行音频识别，主要是识别出音频信号中对应的节奏谱或者语音文字信息，将所述节奏谱输为所述第一识别结果，将所述语音文字信息输出为所述第二识别结果。通过两种识别结果的应用，能够大大提高识别的准确率，以及增加了背景音乐名称的可靠性。

S205，依据识别结果，确认所述混合音频信号中对应的背景音乐名称。

具体的，步骤S205包括：

获取所述识别结果，判别所述识别结果的所属类型，并根据所属类型调用不同的音乐数据库；

将所述识别结果与对应的音乐数据库进行匹配，得出识别结果对应的预选音乐名称；

计算所述预选音乐名称对应的概率值，将概率值大于一定阈值的对应预选音乐名称定义为所述背景音乐名称。

本发明实施例中，所述识别结果的所属类型包括但不限于以下内容：音乐、人音、动物音、机械音等。由此调用相应类型的音乐数据库进行匹配，当所述音乐数据库中匹配不到相关的信息时，则将调用模糊匹配机制，在该机制下进行匹配，将提高匹配的成功率，即当所述识别结果与音乐数据库中的某一类型数据库中存在相似度达到60％以上的，则将确认其匹配结果，后输出对应的预选音乐名称，再通过得出的多个预选音乐名称进行统计每一预选音乐名称的出现的概率值，再确认最高概率值的预选音乐名称为所述背景音乐名称。

需要说明的是，如附图10和图11中所示的本发明所提供的背景音乐识别方法的两种具体实施例，两者的主要区别在于“横向分割”和“纵向分割”，当两种分割方式结合时，同样能够实现本发明所实现的效果，其应当同样属于本发明所公开保护的范围，在此便不多加赘述。

请参阅附图3所示的第三实施例的流程图，本发明提供一种基于混合音频的背景音乐识别方法，包括：

S201，采集当前电子设备播放的混合音频信号。

本发明实施例中，步骤S201所述执行的进程与上述原理相同，故在此便不多加赘述。

S301，针对所述混合音频信号进行预处理，输出预处理信号。

本发明实施例中，所述音频的预处理包括但不限于以下内容：量化处理、降噪处理、预加重处理、加窗分帧处理等。

S302，依据所述预处理信号，确认所述混合音频信息。

本发明实施例中，步骤S302包括以下步骤：

根据所述预处理信号，加载入信息导出器，该信息导出器设置有若干音频信息的计算公式，另外加载有若干音频信息计算函数。

如短时自相关函数定义式为：

假设x是加窗截断后的信号，短时平均幅度差定义：

其中，取一帧信号，计算短时平均幅度差，采用的代码有：

u＝X(:,i)％取一帧信号

fork＝1:wlen

amdvec(k)＝sum(abs(u(k:end)-u(1:end-k+1)))；

％求每个样点的幅度差再累加

end

本领域技术人员应当理解，X(:,i)是取矩阵X的所有行的第i列并共轭转置；X表示一个矩阵；X(:,i)表示所有行的第i列的子矩阵；其中冒号表示的是全部的意思。

S102，分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息。

具体的，所述分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息，包括：

根据所述混合音频信息，调用预置的分割规则将所述混合音频信号进行片段分割；

将分割后的片段音频信号进行音频特征提取，输出第一特征信息和第二特征信息；

根据输出的所述第一特征信息和第二特征信息，判断所述第一特征信息和/或第二特征信息对应的融合参数是否满足预设的融合标准；

若是，则将所述第一特征信息和/或第二特征信息对应的片段音频信号进行融合，并获取其对应的第一混合特征信息；

若否，则剔除所述第一特征信息和/或第二特征信息对应的片段音频信号，并获取其对应的第二混合特征信息。

需要说明的是，本发明所述的融合参数用于表示两种音频信号在各种参数相近的条件下能够实现两者的融合，当设定一个融合标准，则当所述融合参数达到该融合标准后则能够实现融合，省略了多种繁琐的公式计算。

S103，根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐。

获取混合特征信息，将所述混合特征信息与预置的分类特征模板进行比对；

根据比对结果输出对应的音频类别，提取该音频类别对应的音频信号；

调用预置音乐数据库中对应的背景音乐特征区块；

将所述音频信号引流导入所述背景音乐特征区块中，输出其对应的背景音乐名称。

根据所述音频类别，将对应的类别的所述音频信号进行片段分割，并输出第一音频信号和第二音频信号；

针对所述第一音频信号和/或第二音频信号，进行音频识别，并输出第一识别结果和/或第二识别结果；

根据所述第一识别结果和/或第二识别结果，调用预置的第一音乐数据库和/或第二音乐数据库；

请参阅附图4所示的第四实施例的流程图，本发明提供一种基于混合音频的背景音乐识别方法，包括：

S101，获取当前电子设备播放音频对应的混合音频信息。

具体的，所述获取当前电子设备播放音频对应的混合音频信息，包括：

采集所述当前电子设备播放音频对应的混合音频信号；

针对所述混合音频信号进行预处理，输出预处理信号；

依据所述预处理信号，确认所述混合音频信息。

S401，根据所述混合音频信息，调用预置的分割规则将所述混合音频信号进行片段分割。

S402，将分割后的片段音频信号进行音频特征提取，输出第一特征信息和第二特征信息。

需要说明的是，本发明所述方法中的音频特征提取主要是利用特置的函数完成，如特征信息过零率信息的提取，利用的函数有：

本发明所述特征信息的提取函数除了采用如上方法以外还能够采用其他的方式，在此便不多加赘述。

S403，根据输出的所述第一特征信息和第二特征信息，判断所述第一特征信息和/或第二特征信息对应的融合参数是否满足预设的融合标准。

本发明所述的融合参数用于表示两种音频信号在各种参数相近的条件下能够实现两者的融合，当设定一个融合标准，则当所述融合参数达到该融合标准后则能够实现融合，省略了多种繁琐的公式计算。

S404，若是，则将所述第一特征信息和/或第二特征信息对应的片段音频信号进行融合，并获取其对应的第一混合特征信息。

S405，若否，则剔除所述第一特征信息和/或第二特征信息对应的片段音频信号，并获取其对应的第二混合特征信息。

本发明实施例中，在所述融合参数不符合所述融合标准的前提下，其将剔除不满足标准的片段音频信号，其为了保证后续识别的准确度，当所述融合参数不满足融合标准时，一般情况下所识别出来的结果并不完全符合正确的结果，故在融合标准的设定上，本发明经过多次的提取、检验、识别、验证。

S406，根据所述第一混合特征信息或第二混合特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐。

获取混合特征信息，将所述混合特征信息与预置的分类特征模板进行比对；

根据比对结果输出对应的音频类别，提取该音频类别对应的音频信号；

调用预置音乐数据库中对应的背景音乐特征区块；

将所述音频信号引流导入所述背景音乐特征区块中，输出其对应的背景音乐名称。

请参阅附图5所示的第五实施例的流程图，本发明提供一种基于混合音频的背景音乐识别方法，包括：

S501，获取当前电子设备播放音频对应的混合音频信息，分析所述混合音频信息，提取其对应的混合特征信息。

S502，获取混合特征信息，将所述混合特征信息与预置的分类特征模板进行比对。

S503，根据比对结果输出对应的音频类别，提取该音频类别对应的音频信号。

S504，调用预置音乐数据库中对应的背景音乐特征区块。

S505，将所述音频信号引流导入所述背景音乐特征区块中，输出其对应的背景音乐名称。

请参阅附图6所示的第六实施例的流程图，本发明提供一种基于混合音频的背景音乐识别方法，包括：

S501，获取当前电子设备播放音频对应的混合音频信息，分析所述混合音频信息，提取其对应的混合特征信息。

S502，获取混合特征信息，将所述混合特征信息与预置的分类特征模板进行比对。

S503，根据比对结果输出对应的音频类别，提取该音频类别对应的音频信号。

S601，根据所述音频类别，将对应的类别的所述音频信号进行片段分割，并输出第一音频信号和第二音频信号。

S602，针对所述第一音频信号和/或第二音频信号，进行音频识别，并输出第一识别结果和/或第二识别结果。

S603，根据所述第一识别结果和/或第二识别结果，调用预置的第一音乐数据库和/或第二音乐数据库。

S604，将所述第一识别结果和/或第二识别结果分别与所述第一音乐数据库和/或第二音乐数据库中的音乐信息进行匹配，并根据匹配结果确定所述背景音乐名称。

本发明实施例中提供的各步骤流程采用的方式与上述原理相同，在此便不多加赘述。

请参阅附图7所示的第七实施例的流程图，本发明提供一种基于混合音频的背景音乐识别方法，包括：

S201，采集当前电子设备播放的混合音频信号。

S202，根据预置的分割规则，将所述混合音频信号分割为第一音频信号和第二音频信号。

S203，提取所述第一音频信号和第二音频信号的第一特征信息和第二特征信息。

S204，识别所述第一特征信息和第二特征信息，输出第一识别结果和第二识别结果。

S701，获取所述识别结果，判别所述识别结果的所属类型，并根据所属类型调用不同的音乐数据库。

S702，将所述识别结果与对应的音乐数据库进行匹配，得出识别结果对应的预选音乐名称。

S703，计算所述预选音乐名称对应的概率值，将概率值大于一定阈值的对应预选音乐名称定义为所述背景音乐名称。

请参阅附图8所示的第一实施例的结构框图，本发明还提供一种基于混合音频的背景音乐识别装置，包括：

获取模块11：用于获取当前电子设备播放音频对应的混合音频信息。

本发明实施例中，所述获取模块11，包括：

采集单元：用于采集所述当前电子设备播放音频对应的混合音频信号；

预处理单元：用于针对所述混合音频信号进行预处理，输出预处理信号；

确认单元：用于依据所述预处理信号，确认所述混合音频信息。

具体的，所述预处理包括对所述混合音频信号进行前期的量化处理、降噪处理、预加重处理、加窗分帧处理等。

本发明实施例中，所述混合音频信号的采集通过安装有麦克风的其他设备进行录制或者通过设置有音频捕获程序的电子设备进行捕获。

分析模块12：用于分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息。

本发明实施例中，所述分析模块12包括：

片段分割单元：用于根据所述混合音频信息，调用预置的分割规则将所述混合音频信号进行片段分割；

特征提取单元：用于将分割后的片段音频信号进行音频特征提取，输出第一特征信息和第二特征信息；

判断单元：用于根据输出的所述第一特征信息和第二特征信息，判断所述第一特征信息和/或第二特征信息对应的融合参数是否满足预设的融合标准；

第一结果单元：用于当融合参数满足预设的融合标准，则将所述第一特征信息和/或第二特征信息对应的片段音频信号进行融合，并获取其对应的第一混合特征信息；

第二结果单元：用于当融合参数不满足预设的融合标准，则剔除所述第一特征信息和/或第二特征信息对应的片段音频信号，并获取其对应的第二混合特征信息。

第一识别模块13：用于根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐。

本发明实施例中，所述第一识别模块13，包括：

比对单元：用于获取混合特征信息，将所述混合特征信息与预置的分类特征模板进行比对；

信号提取单元：用于根据比对结果输出对应的音频类别，提取该音频类别对应的音频信号；

区块调用单元：用于调用预置音乐数据库中对应的背景音乐特征区块；

音乐名称输出单元：用于将所述音频信号引流导入所述背景音乐特征区块中，输出其对应的背景音乐名称。

可选的，所述第一识别模块13，还包括：

信号输出单元：用于根据所述音频类别，将对应的类别的所述音频信号进行片段分割，并输出第一音频信号和第二音频信号；

识别结果输出单元：用于针对所述第一音频信号和/或第二音频信号，进行音频识别，并输出第一识别结果和/或第二识别结果；

数据库调用单元：用于根据所述第一识别结果和/或第二识别结果，调用预置的第一音乐数据库和/或第二音乐数据库；

结果匹配单元：用于将所述第一识别结果和/或第二识别结果分别与所述第一音乐数据库和/或第二音乐数据库中的音乐信息进行匹配，并根据匹配结果确定所述背景音乐名称。

请参阅附图9所示的第二实施例的结构框图，本发明还提供一种基于混合音频的背景音乐识别装置，其特征在于，包括：

采集模块21：用于采集当前电子设备播放的混合音频信号。

本发明实施例中，所述采集模块21包括麦克风器件。设置音频采样格式和采样频率，以及设置缓冲区大小是采集所述混合音频信号的前期工作，其中在设置缓冲区大小时，参数setting实际上由两部分组成，其低16位标明缓冲区的尺寸，相应的计算公式为buffer_size＝2^ssss，即若参数setting低16位的值为16，那么相应的缓冲区的大小会被设置为65536字节。参数setting的高16位则用来标明分片(fragment)的最大序号，它的取值范围从2一直到0x7FFF，其中0x7FFF表示没有任何限制。

分割模块22：用于根据预置的分割规则，将所述混合音频信号分割为第一音频信号和第二音频信号。

本发明实施例中，所述分割模块22主要遵循着的分割规则主要包括两种：一种是根据混合音频信号进行片段分割，依据于整体混合音频信号的特征信息，将混合音频信号分割为平均化的片段音频信号，其主要目的在于提高特征信息提取的效率，增加语音识别的准确性；另外一种是依据混合音频信号对应的混合特征信息，根据混合特征信息中表现出的音频类别将所述混合音频信号分割为不同音频类别的片段音频信号。

提取模块23：用于提取所述第一音频信号和第二音频信号的第一特征信息和第二特征信息。

本发明实施例中，所述第一特征信息和第二特征信息包括但不限于以下内容：过零率、短时能量、短时自相关函数、短时平均幅度差、短时功率谱密度、谱熵、基频、共振峰频率、梅尔倒谱系数等。

本发明实施例中，所述提取模块23中设有若干特征信息计算公式或者提取函数，其主要承载于本发明所述背景音乐识别装置中的特设芯片。

第二识别模块24：用于识别所述第一特征信息和第二特征信息，输出第一识别结果和第二识别结果。

确认模块25：用于依据识别结果，确认所述混合音频信号中对应的背景音乐名称。

本发明实施例中，所述确认模块25包括：

类型判别单元：用于获取所述识别结果，判别所述识别结果的所属类型，并根据所属类型调用不同的音乐数据库；

预选结果匹配单元：用于将所述识别结果与对应的音乐数据库进行匹配，得出识别结果对应的预选音乐名称；

概率计算单元：用于计算所述预选音乐名称对应的概率值，将概率值大于一定阈值的对应预选音乐名称定义为所述背景音乐名称。

相应的，本发明还提供一种设备，包括：

一个或多个第一处理器；

第一存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述第一存储器中并被配置为由所述一个或多个第一处理器执行；

所述一个或多个程序用于驱动所述一个或多个第一处理器构造用于执行以下步骤：

获取当前电子设备播放音频对应的混合音频信息；分析所述混合音频信息，提取其对应的第一特征信息和第二特征信息；根据所述第一特征信息和第二特征信息，通过调用预置音乐数据库识别出当前电子设备播放的混合音频信息中对应的背景音乐。

相应的，本发明还提供一种设备，其特征在于，包括：

一个或多个第二处理器；

第二存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述第二存储器中并被配置为由所述一个或多个第二处理器执行；

所述一个或多个程序用于驱动所述一个或多个第二处理器构造用于执行以下步骤：

采集当前电子设备播放的混合音频信号；根据预置的分割规则，将所述混合音频信号分割为第一音频信号和第二音频信号；提取所述第一音频信号和第二音频信号的第一特征信息和第二特征信息；识别所述第一特征信息和第二特征信息，输出第一识别结果和第二识别结果；依据识别结果，确认所述混合音频信号中对应的背景音乐名称。

虽然上面已经示出了本发明的一些示例性实施例，但是本领域的技术人员将理解，在不脱离本发明的原理或精神的情况下，可以对这些示例性实施例做出改变，本发明的范围由权利要求及其等同物限定。

扫一扫打开手机网站

微信扫一扫关注我们

基于混合音频的背景音乐识别方法、装置及设备

评论列表()

作者: zhangqinfeng

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

评论列表()

作者: zhangqinfeng

为您推荐

联系我们

微信扫一扫关注我们