단어와 음절 인식을 위한 지표에 대한 통계적 접근

Key Points

Key points are not available for this paper at this time.

Abstract

시간 왜곡 패턴 비교 알고리즘은 음성 인식에 널리 사용됩니다. 비교되는 두 단어 또는 음절은 일련의 시간 프레임으로 설명되며, 각 프레임은 일련의 음향 매개변수 값을 포함합니다. 시간 정렬 후, 패턴 간의 제곱 거리의 합은 프레임 내의 매개변수에 대해 합산되고, 이후 프레임 간에 합산됩니다. 얻어진 합은 두 패턴이 동일한 정체성을 가질 확률의 로그에 비례하는 것으로 가정됩니다. 이 가정은 일반적으로 유효하지 않지만, 동일한 음절의 다양한 예제 간의 변동성을 분석하고 그에 따라 지표를 조정함으로써 상당히 진실하게 만들 수 있습니다. 변동성은 음절 내의 프레임 위치와 음향 매개변수의 함수로 추정됩니다. 후자의 경우, 클래스 내 및 클래스 간 공분산 행렬을 추정할 수 있으며, 표준 선형 판별 분석 방법을 적용할 수 있습니다. 이를 통해 이질적인 음향 매개변수를 단일 거리 측정으로 결합할 수 있습니다. 특히, 프레임 및 프레임 차이 매개변수를 결합하면 시간 전개 정보를 사용할 수 있고, 프레임 간 상관관계를 고려할 수 있습니다.

Bookmark

View Full Paper

Bookmark

View Full Paper

단어와 음절 인식을 위한 지표에 대한 통계적 접근

Key Points

Abstract

Cite This Study