VORA는 순수 브라우저 애플리케이션으로 시작하지 않았습니다. Faster-Whisper를 실행하는 Python FastAPI 서버로 시작했으며, 브라우저 프론트엔드가 오디오를 스트리밍했습니다. 배포 과정이 너무 고통스러워서 결국 전체 서버를 버리고 처음부터 다시 구축했습니다.
버전 1: 서버 측 아키텍처
원래 비전은 기술적으로 깔끔했습니다. Python 백엔드가 모든 작업을 처리합니다: Faster-Whisper 전사, 특화된 의료 용어 모델, 다중 엔진을 결합한 STT 앙상블.
아무도 쓰고 싶지 않은 버그 로그
그 기간의 "fix" 커밋과 "feat" 커밋의 비율은 대략 3:1이었습니다. 모든 새 기능에 대해 3가지가 깨졌습니다.
깨달음의 순간: 커밋 diff 보기
우리는 물었습니다: 모든 이 복잡성의 실제 사용자 가치는 무엇입니까? 답변은 "기본 제공 음성 API보다 약간 더 나은 전사 정확도, 10배 더 나쁜 지연 시간"이었습니다.
다시 쓰기: "Web Speech API만으로 단순화"
우리는 전체 서버를 삭제했습니다. Python 백엔드, 스레딩 논리, 오디오 청킹 코드, 모든 것이 사라졌습니다.
브라우저 기반 위에 AI 레이어 구축
현재 VORA 아키텍처는 Web Speech API → TextCorrector(로컬 사전 + Gemini AI) → UI입니다.
우리가 추출한 아키텍처 원칙
올바른 질문은 "우리가 무엇을 구축할 수 있는가?"가 아닙니다. "핵심 사용자 가치를 제공하기 위해 필요한 최소 인프라 양은 얼마인가?"입니다.