최근 VORA 팀은 알리바바 DAMO 아카데미가 개발한 오픈소스 경량 음성 인식(ASR) 모델인 SenseVoice Small의 내부 벤치마크 테스트를 진행하고 있습니다.
주요 기술적 특징
- 효율적인 모델 구조: 적은 파라미터로 높은 계산 효율성을 달성하여, 온디바이스 환경이나 브라우저에서의 직접 실행 가능성을 열어줍니다.
- 다국어 및 코드 스위칭 지원: 한국어와 영어가 혼용되는 문장에 대한 원활한 인식을 지원하여, 국내 실제 사용 환경에 매우 적합합니다.
- 낮은 레이턴시: 실시간 애플리케이션에 적합한 빠른 추론 속도를 제공합니다.
- 오픈소스: Apache 2.0 라이선스로 공개되어 상업적 활용이 자유롭습니다.
VORA의 테스트 환경
저희는 다음과 같은 환경에서 SenseVoice Small을 테스트하고 있습니다:
- ONNX 형식으로 변환하여 WASM 환경에서의 실행 가능성 검증
- 한국어 회의 음성 데이터에 대한 정확도 측정
- 영어-한국어 혼용 발화 시나리오 테스트
- 다양한 노이즈 환경에서의 강건성 평가
예비 테스트 결과
초기 테스트 결과, SenseVoice Small은 다음과 같은 강점을 보였습니다:
- 깨끗한 환경에서 90% 이상의 한국어 인식 정확도
- 브라우저 환경에서도 실용적인 수준의 처리 속도
- 코드 스위칭 상황에서도 안정적인 성능 유지
향후 계획
VORA는 SenseVoice의 도입을 통해 사용자에게 더 빠르고, 안정적이며, 안전한 음성 인식 경험을 제공하기 위한 연구를 계속해 나갈 것입니다. 특히 오프라인 환경이나 프라이버시가 중요한 상황에서 로컬 음성 인식 옵션으로 제공할 수 있을 것으로 기대됩니다.
블로그 목록으로 돌아가기