随着短视频的兴起,如何使用算法理解视频内容,并对其进行描述与检索就显得非常重要。最近快手多媒体内容理解部的语音组提出了一种能使用下文信息的门控循环单元,该模型能为快手大量的短视频提供语音识别、语音特效和语音评论等优秀的应用。快手提出的该论文已经被 Interspeech 2018 接收为 oral 论文,目前它同样也部署在了快手的各种语音业务中。
随着短视频的兴起,如何使用算法理解视频内容,并对其进行描述与检索就显得非常重要。最近快手多媒体内容理解部的语音组提出了一种能使用下文信息的门控循环单元,该模型能为快手大量的短视频提供语音识别、语音特效和语音评论等优秀的应用。快手提出的该论文已经被 Interspeech 2018 接收为 oral 论文,目前它同样也部署在了快手的各种语音业务中。
本文介绍了快手这一研究成果以及它在实际业务中的应用,同时也介绍了 Interspeech 2018 中比较有意思的主题。本文首先会讨论语音在快手业务中的应用,以及为什么需要高性能门控循环单元以及较低的解码延迟。随后文章会重点讨论快手如何选择 GRU、mGRU 以及更加精简的循环单元 mGRUIP,同时会介绍如何将下文信息嵌入循环单元以处理语音的协同发音问题,这些带下文信息的高效模块在处理快手短视频语音信息中处于核心地位。最后,本文还会介绍快手整个多媒体理解部门所研究的方向与情况。
快手多媒体内容理解部语音组的李杰博士在 Interspeech2018 做 oral 报告。
为什么语音需要新单元
首先语音在快手业务中的应用主要分为两大类。第一类是语音内容分析,主要目的是对每天快手用户产生的海量语音数据进行内容分析,为接下来的信息安全、内容理解、广告与推荐等提供基础服务。涉及到的技术主要包括:语音识别、关键词识别、说话人识别、声学事件检测等。这类业务快手用户可能不太容易感受的到,但对快手而言是很重要的业务。具体的应用,比如,短视频语音识别、短视频音频标签、直播语音识别、直播脏词过滤等。
第二类是语音交互。其目的是提升用户与快手产品交互时的便利性,此外,可以通过语音设计一些新的玩法,提升趣味性。涉及的技术包括语音识别、关键词唤醒等。比如,快手产品中的魔法表情语音特效触发、语音自动生成字幕、语音评论、语音搜索等。
在语音识别领域,设计一个「又快又好」的声学模型一直是从业者不断追求的目标。「快」指的是模型延迟要小,计算要高效。「好」指的是识别准确率要高。本次快手提出的「具备下文语境的门控循环单元声学模型」就具有这样的特点。在语音内容分析和语音交互两类业务中,语音识别相关部分都可以用此模型。
•论文:Gated Recurrent Unit Based Acoustic Modeling with Future Context
• 论文地址:https://arxiv.org/abs/1805.07024
带下文语境的门控循环单元
正因为快手需要快速与准确地处理语音信息,所以快手的李杰博士等研究者提出了一种能利用下文信息的门控循环单元。这里需要注意的是,利用下文信息在语音识别和关键词识别等任务中非常重要。正如快手所述,很多时候语音识别不能仅考虑当前话语的信息,我们还需要一定长度的后文信息才能降低口音和连读等协同发音的影响。
为了利用下文信息,我们首先想到的可能就是 BiLSTM,它广泛应用于机器翻译和其它需要下文信息的序列任务中。但是在语音识别中,双向LSTM的延迟非常大,它也做不到实时解码。例如在使用 BiLSTM实现语音建模的过程中,模型的延迟是整句话,也就是说在识别第 5 个词时,我们需要等整句话结束并将信息由句末传递到第 5 个词,这样结合前向信息与反向信息才能完成第 5 个词的识别。这种延迟是非常大的,通常也是不可忍受的,没有人希望模型在整句话都说完才开始计算。
整个延迟的控制在语音识别中都处于核心地位,因此正式来说,模型延迟指在解码当前帧时,模型需要等待多久才能对当前帧进行预测。而模型等的时间就应该是识别当前帧所需要的未来信息,这个延迟是一定存在的,只要在可接受的范围内就完全没问题。快手多媒体内容理解部语音组李杰博士表示一般最简单的方法就是在输入特征的时候,除了输入当前特征以外,还要把未来的比如说一百毫秒以内的特征都输入进去。因此在真正使用,并解码的当前时刻 T 的时候,我们必须要等待一百毫秒。
其实有很多方法都能在声学建模中利用下文信息,例如 时延神经网络 (TDNN)和控制延迟的 LC-BiLSTM网络等。其中 TDNN 是一种 前馈神经网络 架构,它可以在上下文执行时间卷积而高效地建模长期依赖性关系。而 LC-BiLSTM尝试控制解码延迟,希望不再需要等整个句子完成再解码,但这些模型的延迟仍然非常高,达不到实际的需求。
为了降低延迟并提高计算效率,快手的研究者在该论文中以 GRU 为基础进行了修正并添加了上下文模块。总的而言,他们采用了只包含更新门的最小门控循环单元(mGRU),并进一步添加线性输入映射层以作为「瓶颈层」,从而提出大大提升运算效率的门控循环单元mGRUIP。使用 mGRUIP 再加上能建模下文信息的模块,就能得到高性能与低模型延迟的声学建模方法。
李杰博士表示一般来说,「建模下文信息」总会带来一定的延迟,「建模下文信息」与「低延迟」经常会相互矛盾。这篇论文提出的模型是在两者之间找到了一个比较好的平衡点。模型中的 input projection 形成了一个 bottleneck,而快手在这个 bottleneck 上设计了下文语境建模模块,从而实现了在低延迟的条件下,对下文语境进行有效建模。
从 GRU 到 mGRUIP
为了构建计算效率更高的单元,快手从 GRU、mGRU 到 mGRUIP 探索了新型门控单元。GRU 背后的原理与LSTM非常相似,即用门控机制控制输入、记忆等信息而在当前时间步做出预测。GRU 只有两个门,即一个重置门(reset gate)和一个更新门(update gate)。这两个门控机制的特殊之处在于,它们能够保存长期序列中的信息,且不会随时间而清除或因为与预测不相关而移除。
从直观上来说,重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。在 Kyunghyun Cho 等人第一次提出 GRU 的论文中,他们用下图展示了门控循环单元的结构:
上图的更新 z 将选择隐藏状态 h 是否更新为新的 h tilde,重置门 r 将决定前面的隐藏状态是否需要遗忘。以下图左的方程式展示了 GRU 的具体运算过程:
其中 z_t 表示第 t 个时间步的更新门,它会根据当前时间步的信息 X_t 与前一时间步的记忆 h_t-1 计算到底需要保留多少以前的记忆。而 r_t 表示重置门,它同样会通过 Sigmoid 函数判断当前信息与多少以前的记忆能形成新的记忆。而上图右侧所展示的 mGRU 进一步减少了门控的数量,它移除了重置门,并将双曲正切函数换为 ReLU激活函数。此外,mGRU 相当于令 GRU 中的重置门恒等于 1。
通过上图的左右对比,很明显我们会发现 mGRU 的计算要简单地多,但是如果网络的每一层神经元都非常多,那么 mGRU 的计算量还是非常大,且随着神经元数量的增加计算成线性增长。这就限制了 mGRU 在大型网络和大规模场景中的应用。因此李杰等研究者进一步提出了带输入映射的 mGRUIP,它相当于给输入增加了一个瓶颈层,先将高维特征压缩为低维,然后在低维特征上发生实际的运算,再恢复到应有的高维特征。
上图展示了 mGRU 到 mGRUIP 的演变,其中 mGRUIP 会先将当前输入 x_t 与前一时间步的记忆(或输出,h_t-1)拼接在一起,然后再通过矩阵 W_v 将拼接的高维特征压缩为低维向量 v_t,这里就相当于瓶颈层。然后通过批归一化 BN 和激活函数ReLU 计算出当前需要记忆的信息 h_t tilde,再结合以前需要保留的记忆就能给出当前最终的输出。
mGRUIP 显著地减少了 mGRU 的参数量,它们之间的参数量之比即 InputProj 层的单元数比上隐藏层的单元数。例如我们可以将 InputProj 层的单元数(或 v_t 向量的维度)设置为 256,而神经网络隐藏层的单元数设置为 2048,那么同样一层循环单元,mGRUIP 比 mGRU 的参数量少了 8 倍。
很多读者可能会疑惑既然等大小的两层网络参数量相差这么多,那么它们之间的表征能力是不是也有差别,mGRUIP 是不是在性能上会有损失。李杰表示他们经过实验发现,这种降维不仅不会降低 GRU 模型的表达能力,反而可以提升模型的性能。不仅本文的 GRU 如此,其他人所做的关于LSTM的工作也有类似的发现。在LSTM中增加线性输出层,或者输入层,大部分情况下,不仅没有性能损失,反而有一定的收益。可能的原因在于,语音连续帧之间具有较多的冗余信息,这种线性层可以进行一定程度的压缩,降低冗余。
mGRUIP 与上下文模块
完成高效的门控循环单元后,接下来我们需要基于这种单元构建利用下文信息的方法。在快手的论文中,他们提出了两种上下文模块,即时间编码与时间卷积。
在时间编码中,未来帧的语境信息会编码为定长的表征并添加到输入映射层中。如下向量 v 的表达式为添加了时间编码的输入映射层,其中蓝色虚线框表示为时间编码,且 l 表示层级、K 表示利用未来语境的数量、s 为未来每一个语境移动到下一个语境的步幅。在向量 v 的表达式中,左侧 W_v[x_t; h_t-1] 为 mGRUIP 计算输入映射层的表达式,而右侧时间编码则表示将前一层涉及下文信息的 InputProj 加和在一起,并与当前层的 InputProj 相加而作为最终的瓶颈层输出。这样就相当于在当前时间步上利用了未来几个时间步的信息,有利于更准确地识别协同发音。
上图展示了带有时间编码的 mGRUIP 计算过程,在 l 层时先利用当前输入与上一层输出计算出不带下文信息的 InputProj,然后从 l-1 层取当前时间步往后的几个时间框,并将它们的 InputProj 向量加和在一起。将该加和向量与当前层的 InputProj 向量相加就能得出带有下文信息的瓶颈层向量,它可以进一步完成 mGRUIP 其它的运算。如上所示转换函数 f(x) 一般可以是数乘、矩阵乘法或者是恒等函数,但快手在实验中发现恒等函数在性能上要更好一些,所以它们选择了 f(x)=x。
李杰等研究者还采用了第二种方法为 mGRUIP 引入下文信息,即时间卷积。前面时间编码会使用低层级的输入映射向量表征下文信息,而时间卷积会从低层级的输出状态向量中抽取下文信息,并通过输入映射压缩下文信息的维度。如下 v 向量的计算式为整个模块的计算过程,其中左侧同样为 mGRUIP 计算 InputProj 的标准方法,右侧蓝色虚线框表示时间卷积。
简单而言,时间卷积即将所需要的前层输出拼接在一起,并通过 W_p 构建表征下文信息的输入映射层。其中所需要的前层输出表示模型需要等多少帧语音信息,例如需要等 10 帧,那么前一层当前往后 10 个时间步的输出会拼接在一起。此外,这两种方式的延迟都是逐层叠加的,也就是说每一层需要等 10 毫秒,那么 5 层就需要等 50 毫秒。
如上所示为带时间卷积的 mGRUIP 具体过程,它会利用 l-1 层的 t_1 和 t_2 等时间步输出的隐藏单元状态,并在第 l 层拼接在一起。然后将下文信息压缩为 Projection 向量并与 l 层当前时间步的 InputProj 相加而成为带下文信息的瓶颈层向量。
至此,整个模型就完成了构建,快手在两个语音识别任务上测试了该模型,即 309 小时的 Swichboard 电话语音任务和 1400 小时的国内普通话语音输入任务。mGRUIP 在参数量上显著地小于LSTM与 mGRU,且在词错率和性能上比它们更优秀。此外,带有上下文模块的 mGRUIP 在延迟控制和模型性能上都有非常优秀的表现,感兴趣的读者可查看原论文。
Interspeech 2018 与快手研究
这篇论文也被语音顶会 Interspeech 2018 接收为 Oral 论文,李杰同样在大会上对这种能使用下文信息的门控循环单元给出了详细的介绍。前面我们已经了解了该模型的主要思想与过程,但是在 Interspeech 2018 还有非常多优秀的研究与趋势。李杰表示:「从今年的大会看,主流的声学模型依然是基于 RNN 结构,只不过大家所做的工作、所解的问题会更加细致。比如,对于 RNN 模型低延迟条件下,下文语境建模问题,除了我们在关注,Yoshua Bengio他们也有一篇工作聚焦在该问题上。此外,如何提升 RNN 声学模型的噪声鲁棒性、低资源多语言声学模型建模、说话人和领域声学模型自适应、新的 RNN 结构等问题,也受到了很多关注。」
除此之外,李杰表示端到端模型依然是大家研究的热点。主要的技术方向有三个,第一,CTC;第二,基于 RNN 的带注意力机制的编解码模型;第三,也是今年 Interspeech 新出现的,基于 self-attention 的无 RNN 结构的编解码模型。
其实除了 Interspeech 接收的这篇 Oral 论文,快手还有很多不同方向的研究,包括计算机视觉、自然语言处理和情感计算等等。因为快手平台每天都有大量的短视频上传,因此如何分层有序地提取视频信息、理解视频内容就显得尤为重要。针对该问题,快手多媒体内容理解部门通过感知和推理两个阶段来解读一个视频,首先感知获取视频的客观内容信息,进而推理获取视频的高层语义信息。
在感知阶段,除了上文所述的语音处理,快手还会从另外三个维度来分析理解视频内容,包括人脸、图像和音乐。
-
对于语音信息,快手不仅进行语音识别,还需要实现说话人识别、情绪年龄等语音属性信息分析。
-
对于人脸信息,快手会对视频中的人脸进行检测、跟踪、识别,并分析其年龄、性别、3D 形状和表情等信息。
-
对于图像信息,快手会通过分类、物体检测等算法分析场景、物体,通过图像质量分析算法对图像的主观质量进行评估,通过 OCR 分析图像中包含的文字信息等。
-
对于音乐信息,快手需要进行音乐识别、歌声/伴奏分离、歌声美化打分等分析,对音乐信息进行结构化。
从以上四个方面,快手能抽取足够的视频语义信息,并为推理阶段提供信息基础。推理阶段可以将视频看做一个整体,进行分类、描述、检索。此外,高级视频信息也可以整理并存储到快手知识图谱中,这样融合感知内容和知识图谱,就可以完成对视频高层语义及情感的识别。因此,感知与推理,基本上也就是快手多媒体理解部门最为关注的两大方面。
产业 快手 GRU 门控循环单元 视频
相关数据
Activation function
在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。
Attention mechanism
我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。
来源:机器之心
Affective computing
情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域
来源: Wikipedia
Neural Network
(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。
来源:机器之心
Computer Vision
计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。
来源:机器之心
Dimensionality reduction
降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。
来源:机器之心
Feed-forward neural network
前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。
来源:机器之心
Gated recurrent Units
门控循环单元(GRU)是循环神经网络(RNN)中的一种门控机制,与其他门控机制相似,其旨在解决标准RNN中的梯度消失/爆炸问题并同时保留序列的长期信息。GRU在许多诸如语音识别的序列任务上与LSTM同样出色,不过它的参数比LSTM少,仅包含一个重置门(reset gate)和一个更新门(update gate)。
Knowledge graph
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。
来源:机器之心
Long-Short Term Memory
长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。
Mapping
映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。
来源: Wikipedia
neurons
(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。
来源: Overview of Artificial Neural Networks and its Applications. (2018). medium.com.
Natural language processing
自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
来源: 维基百科
Machine translation
机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。
来源:机器之心
perception
知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。
来源: 维基百科
Time delay neural network
时间延迟神经网络(TDNN)是一种人工神经网络结构,其主要目的是对图案进行不受位移影响的分类,即不需要事先确定图案的起点和终点。TDNN最先被提出是用来分类语音信号中的音素以用于自动语音识别,因为语音识别中精确的分段或特征边界的自动确定是困难的或不可能的,而TDNN识别音素及其基本的声学/语音特征,与时间上的位置无关,不受时间偏移影响。
来源: Wikipedia
Speech Recognition
自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。
tanh function
在数学中,双曲函数是一类与常见的三角函数(也叫圆函数)类似的函数。双曲正切函数是双曲函数的一种,它也是双曲正弦函数(sinh)与双曲余弦函数(cosh)的商。 在人工智能领域,tanh函数是一种常见的激活函数,取值范围为(-1,1),“在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果”。
来源: Wikipedia
Yoshua Bengio
约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是两本书和超过200篇出版物的作者,最被引用在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。
涉及领域
所属机构
Accuracy
分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数
Speaker recognition
说话人识别作为模式识别的一类,主要任务是通过待测试语音来判断对应的说话人身份。 从识别对象进行划分可以主要分为两个部分:说话人确认(speaker verification)和说话人辨认(speaker identification)。如果待测说话人的范围已知,需要通过语音段对待测说话人的身份进行判断,是否是属于某个说话人,则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知,需要从一定的范围内来对语音段对应的说话人身份进行辨别,这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。 从识别语音段的文本,可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题,待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题,待测试语音段的内容可以与系统中预先登记的内容不同,待测试说话人可以只说几个字来进行身份认证。
来源: 维基百科
机器之心编辑
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Foundation Web Standards
Jonathan Lane、Steve Smith / Friends of ED / 21st July 2008 / $34.99
Foundation Web Standards explores the process of constructing a web site from start to finish. There is more to the process than just knowing HTML! Designers and developers must follow a proper proces......一起来看看 《Foundation Web Standards》 这本书的介绍吧!