声纹识别 | 快速概览 + 详细了解N:N聚类算法是如何应用的

编辑导语:如今的识别功能越来越强大,比如:指纹识别、人脸识别、虹膜识别、声纹识别等等,声纹识别多用于金融行业和xíng侦场景,进行声音匹配;本文作者详细介绍和分析了声纹识别中N:N聚类算fǎ是如何应用的,我们一起来看一下。

笔者前段时间有幸了解到声纹的概念:声纹识别,作为生物识别技术的一种,跟脸象、指纹、虹膜等一样,是每个人独一无二的特征;在金融行业、xíng侦场景应用中,对于说话人身份的鉴别认证,应用颇多。

作为产品功能设计,一般有三个类别,分别是1:1(说话人确认)、1:N(说话人辨认)、N:N(在声纹1:N的基础上,进行大规模、自动化和高效的声纹匹配,类似声海中找特定声音,或者找相似声音)。

本文从声纹识别的基本概念入手,科普知识;同时分享笔者思考的声纹识别的N:N聚类算fǎ的liú程与应用场景,希望可以和大家多多交liú。

本文将从如下方面为你一一解读:

  • 什么是声纹?
  • 声纹识别的原理。
  • 声纹识别的三个应用大类:1:1、1:N、N:N。
  • N:N聚类分析的技术原理与应用liú程、应用场景。
  • 声纹识别的几类攻击。

一、什么是声纹?

声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。

人类语言的产生是X语言中枢与发音器guān之间一个复杂的生理物理过程,发声器guān——舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。

每个人的X声学特征既有相对稳定性,又有变异性,不是一成不变的;这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关;尽管如此,由于每个人的发音器guān都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。

二、声纹识别的原理

想要X声音识别某个人,或者从声海中辨认出谁是谁,有两个核心的问题:就是特征提取和模式匹配了。

数据收集阶段,提取并提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征;之后选择合适的模型(具体大家可以自行搜索,这里不多赘述)在进行声音识别。

三、声纹识别的三个应用大类:1:1、1:N、N:N

1. 说话人确认 1:1

1:1 说话人确认是确认说话人身份的方fǎ,zhēn对“对于同样的文本内容,有两段X,这两段X到底是不是出自一人之口”这样的问题,也就是“两句话到底是不是一个人说“的问题。

该类场景相对简单,主要应用于用户的注册和验证,以及APP内的声纹核身。

2. 说话人确认 1:N

1:N 说话人辨认是辨认说话人身份的方fǎ,zhēn对“对于一段X,需要迅速在样本库中进行搜寻比对,以确认这段X与样本库中哪段X相似度最高”,也就是说“给定的一段X属于样本库中谁说的”的问题。

该类场景比较常见,主要应用于X用户进线检测、提高安防能力等。

3. 说话人聚类 N:N

在声纹 1:N 的基础上,进行大规模、自动化和高效的声纹匹配。

举个例子,如果吉尼斯举行一个比赛,5万个人都录制一段X内容相同的X;作为吉尼斯的审核方,如果想要快速鉴别这5万个数据有没有X、或者重复(比如将一段X复制无数次,冒充数据);那么XX员一条一条X听,是有点不科学的,X听多了也会混乱,而且很低效。

那么有什么好的办fǎ呢?那就是N:N说话人聚类,下文会详细介绍如何解决此类问题。

四、N:N聚类分析的技术原理与应用liú程,应用场景

对于千亿级别的无标签X文件,如何做有效的处理?

举个例子,假如说你有很多的X片段(X的文本内容是相同的),这些X片段分别归属于甲乙丙丁等人;仅凭人耳辨识是无fǎ分辨出哪些X片段属于甲,哪些X片段属于乙。

XN:N聚类的算fǎ,进行声纹的相似度检测,将属于同一个人说话的X片段不断进行合并归类;最后属于甲说话的X片段全部被归为一类,属于乙说话的X片段全部被归为一类;以此类推,类内X的相似度极高,类间X的相似度较低,达到将这些X片段分人整理的目的。

简单介绍一下聚类分析:聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。

目的是——组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的);组内相似性越大,组间差距越大,说明聚类效果越好。

聚类效果的好坏依赖于两个因素:

  • 衡量距离的方fǎ(distance measurement) ;
  • 聚类算fǎ(algorithm)。

目前主liú的说话人聚类算fǎ是在说话人分gē的基础上,基于贝叶斯信息判据,采用凝聚分层聚类算fǎ,直接对说话人分gē后的X段进行X,将属于同一个说话人的X段合并为一类。

其基本思想是从每个语片段中提取特征参数,例如梅尔倒谱参数,计算每两个X段之间特征参数的相似度,并XBIC判断相似度最高的两个X段是否合并为同一类。

对任意两段X都进行上述X,直到所有的X段不再合并。

——摘自“说话人聚类的初始类生成方fǎ”

聚类&声纹识别的主要场景:在跨渠道、跨场景收集X同时建立声纹库的时候;由于各场景应用的客户账号或许不同,说话人在不同场景中分别注册过声纹,难以筛除重复注册X,建立X声纹库。

我们如何快速的去筛除属于某一个人在不同情况下录制的多条X文件?也就是如何保证最终留下的X文件(声纹库)是唯一的?

每一个人只对应一条音频,这就要用到聚类的算fǎ;X声纹识别N:N说话人聚类,对所有收集到的X进行X相似度检测,将同一说话人在不同场景中的多次录制的X筛选出来;并只保留其中一条,从而保证了声纹库的独特性,节省了大量的人力成本、资源成本。

对于目前的场景,我们选择凝聚层次聚类算fǎ,在这种场景下,我们是要筛除重复人说话;那么我们可以将每一个X文件都当作一个X的数据点,看最后有凝聚出多少个X的数据簇,此时可以理解为类内都是同一个人在说话。

1)我们首先将每个数据点(每一条X文件)视为一个单一的类,即如果我们的数据集中有 X 个数据点,那么我们就有 X 个类;然后,我们选择一个测量两个类之间距离的距离度量标准;作为例子,我们将用 average linkage,它将两个类之间的距离定义为第一个类中的数据点与第二个类中的数据点之间的平均距离(这个距离度量标准可以选择其他的)。

2)在每次迭代中,我们将两个类合并成一个;这两个要合并的类应具有最小的 average linkage,即根据我们选择的距离度量标准,这两个类之间的距离最小;因此是最相似的,应该合并在一起。

3)重复步骤 2 直到我们到达树根,即我们只有一个包hán所有数据点的类。这样我们只需要选择何时停止合并类,即何时停止构建树,来选择最终需要多少个类(摘自知乎)。

按照实际的场景,如果我们最终要得到1000个不重复的X文件,为了防止X合并,定义的退出条件是最后想要得到的X文件数目。

声纹识别 N:N聚类算fǎ

处理的liú程图

声纹识别 N:N聚类算fǎ

聚类模拟图

五、声纹识别的几类攻击及其策略

1. X重放攻击

攻击者录制目标说话人的X进行播放,以目标人身份试图X声纹识别系统的认证。

策略:基于随机内容声纹的检测技术,X随机数字的不确定性,用户在规定的时间内(5-10S)需要念出指定的随机内容,如果超时,则随机内容更新;因为对于X重放的内容是固定的,很不灵活,所以比较容易做X。

2. 波形拼接攻击

攻击者将目标说话人的X录制下来,X波形编辑工具,拼接出指定内容的X数据,以放音的方式假冒目标说话人,试图以目标人身份X声纹识别系统的认证。

策略:同X重放。

3. X合成攻击

攻击者用X合成技术生成目标说话人的X,以放音的方式假冒目标说话人,试图以目标人的身份X声纹识别系统的认证。

策略:同X重放;XX检测技术,加强算fǎ的识别度。

以上,是关于声纹识别的一些分享,希望大家可以多多交liú,一同进步。

收藏 (0) 打赏

以上内容不错,打赏支持一下!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有教程资源,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

雄发创业网 软文营销推广 声纹识别 | 快速概览 + 详细了解N:N聚类算法是如何应用的 https://www.xiongfawang.com/481.html

常见问题

相关文章

声纹识别 | 快速概览 + 详细了解N:N聚类算法是如何应用的-海报

分享本文封面