VORA는 현재 브라우저 내장 Web Speech API를 주력으로 사용하고 있지만, 더 높은 정확도와 오프라인 환경 대응을 위해 OpenAI의 Whisper v3-large 도입을 적극 검토하고 있습니다.
주요 테스트 항목
- ONNX 기반 WASM 실행: 서버 없이 브라우저 단에서 Whisper를 구동했을 때의 Latency와 CPU 점유율 측정.
- 한국어 방언 및 전문 용어: 기존 API 대비 한국어 전문 용어(제약, IT 등) 인식률 향상 폭 분석.
- V3-Turbo 활용성: 인식 속도가 비약적으로 향상된 Turbo 모델이 실시간 전사에 적합한지 검증 중입니다.
Whisper의 장점
- 다국어 지원: 99개 언어를 지원하며, 코드 스위칭에도 강점을 보입니다.
- 높은 정확도: 특히 영어 인식에서 업계 최고 수준의 성능을 자랑합니다.
- 오픈소스: MIT 라이선스로 상업적 활용이 자유롭습니다.
- 타임스탬프: 단어 단위 타임스탬프를 제공하여 자막 생성에 유리합니다.
검토 중인 과제
- 브라우저 환경에서의 메모리 사용량 최적화
- 실시간 스트리밍 인식을 위한 청크 처리 방식 개선
- 한국어 특화 파인튜닝 모델 검토
- Whisper + LLM 파이프라인 구축 (전사 후 AI 분석)
예상되는 효과
Whisper 엔진이 성공적으로 도입된다면, VORA는 클라우드 의존도를 낮추고 보안성을 한 차원 더 끌어올릴 수 있을 것으로 기대됩니다. 특히 민감한 회의 내용을 다루는 기업 사용자들에게 큰 가치를 제공할 수 있습니다.
📊 테스트 진행 상황
현재 VORA 팀은 Whisper v3-large-turbo 모델을 ONNX로 변환하여 브라우저 환경에서 테스트 중입니다. 초기 결과는 매우 긍정적이며, 향후 베타 버전으로 공개될 예정입니다.