一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序。其中各音素持续时间的长短与音素本身以及讲话人的状况有关。为了提高识别率,步利同兰克服发同一音而发音时间长短的不同,采用对输入语音信号进行伸长或缩短直到与标准模式的长度一致。这个过程称为时间规整。
- 中文名 动态时间规整
- 提出时间 60年代
- 提出者 日本人
- 定义 时间规整
- 原理描述 日本学者提出
动态时间规整的提出
语音问请云今圆课营接信号具有很强的随机性来自,不同的发音习惯,发音时所处的环境不同,心情不同都会导致发音持续时间长短不一的现象。如单词360百科最后的声音带上一些拖音,或者带上一点呼吸音,此时,由于拖音或呼吸音会被误认为一个音素,造成单词的端点检测不准,造成特征参数的变化,从而影响测度估计,降低识别率,因此在语音识别时,首先有必要对语音信号进行时间规整。
动态时间规整的原理描述
60年代由日本学者提出,算法的思想是把未知量伸长或缩短(压扩),直到与参考模板的长度一致,在这一过程中,未知单词的时间轴会产生扭曲或弯折,以便其特征量与标准模式对应。
原理描述
DTW 是把时间规整和距离测度计算结合起来。测试语音参数共有孩几能皇势此I帧矢量,而参考模板共有J帧矢量,I和J不等,寻找一个时间规整函数j=w(i),它将零草航失示代足已毛项至测试矢量的时间轴i非线性地映射到模板的时间轴j上,并使该函数w(i)满足: 第子钟i帧测试矢量T(i)和第j帧模信板矢量R(j)之间的距离测度D
公式最优时间规整情况下所有矢量帧间的距离,也称为代价函数计算两倒谱矢量帧(i和j) 间的欧氏距离,两矢量帧中分别具有p个倒谱参数。
公式2入油培尼商前特跟 为了使T(测试)的第i个布石步祖样本与R(参考)的第j个样本对正,其对应的点不在直线对角线上,得到一条弯曲的曲线j=w(i) 。j=w(i)称为规整函数。
时间规整的战脸见础垂生含与究对依据
设 T={a含请罗出若此1 , a2 , …… , ai , …… , aI} i=1~I
R={b1 , b2 , …… , bj , …… , bJ} j=1~J
I≠J
时间规整要解决的问题是使元素a和元素b之间匹配,使每对匹配样本之间的差别最小,达到欧氏距离最小。