더 나은 한국어 STT를 위한 N-Best 후보 재순위 시스템 구축

Web Speech API의 가장 덜 알려진 기능 중 하나는 단순히 최상위 1개 전사본이 아닌 여러 개의 대체 가설을 신뢰도 순으로 반환한다는 것입니다(N-Best 리스트). 우리는 도메인 지식을 사용하여 더 나은 후보를 선택하는 로컬 재순위 시스템을 구축했습니다.

Web Speech API가 실제로 반환하는 것

Web Speech API가 최종 결과로 이벤트를 발생시킬 때, 이벤트에는 SpeechRecognitionResultList가 포함됩니다. 각 리스트 항목은 여러 대체 가설을 나타냅니다. 각 대체 항목에는 transcript(텍스트)와 confidence 점수(0.0~1.0)가 있습니다.

// Web Speech API에서 얻은 것:
event.results[0][0] = { transcript: "API 호출이 실패했어요", confidence: 0.87 }
event.results[0][1] = { transcript: "에이피아이 호출이 실패했어요", confidence: 0.85 }
event.results[0][2] = { transcript: "API 호출이 실패해요", confidence: 0.83 }

인사이트: 기술 용어에는 신뢰도 점수보다 도메인 지식이 우수

일반적인 회화 음성의 경우 신뢰도 점수는 신뢰할 수 있습니다. 하지만 기술 용어가 많은 전문 회의의 경우, 음향 신뢰도가 신뢰할 수 없습니다.

세션 사전: 회의 중 학습

TextCorrector의 가장 기술적으로 흥미로운 구성 요소는 세션 사전입니다. 회의 세션 중에 증가하는 동적으로 구축된 어휘입니다.

수치: 로컬 재순위가 실제로 달성하는 것

내부 테스트에서 전체 수정 파이프라인은 다음을 달성했습니다:

N-Best 재순위만: 단어 오류율 8% 감소
로컬 사전 수정: 도메인 용어 오류에서 추가 15% 감소
AI 수정(Gemini): 추가 12% 감소
세션 학습(첫 5분 후): 추가 6% 감소