글 쓴 이(By): rabiner (Kim Do Yeong) 날 짜 (Date): Mon Jan 18 15:44:06 KST 1993 제 목(Title): 음성타자기에 관한 ............ 음성을 공부하시는 분을 만나게 되어 무척 반갑습니다. 저는 한국과학기술원에서 역시 음성을 공부하고 있는 대학원생입니다. 학부는 연대를 졸업했으니 여러가지로 수일님과는 인연이 많군요... 음성타자기에 대한 제 생각은 이렇습니다. 대상의 문제 : 말이 타자기지 구현하는 방법은 천차만별입니다. 우선 단어의 형태(isolated word, continuous speech) 와 그 숫자부터 시작해서 인식대상인 사람들에 대한 제한 - 즉, 수일님 목소리는 되는데 딴 사람 목소리는 않되고 그러면 않되겠지요? -이 그 중에서도 가장 큰 문제가 되겠지요. 음성 모델링 방식 : 코호넨의 feature map 같은 방식은 음소내지는 frame 단위의 변별력을 잘 처리하나 연속어 등의 확장에 있어서 단점을 가지고 있지요. 상대적으로 HMM 은 음소, 단어, 문장에 이르기 까지 통합환경(?)을 제공한다는 장점이 있지요. 비전문가들이 많이 보는 이러한 보드에서 따분한 전문용어를 늘어 놓는 것은 별로 좋은 일은 아니겠지요? 참고로 우리 연구실에서는 80년대에 약 5년간에 걸쳐 음성 자동 응답기를 구현했구요(1000단어 -고립단어- 규모), 작년(92)에는 1000단어 연속음성 인식의 1차년도 연구를 수행한 바 있습니다. 또한 93년에는 깜짝 놀랄만한 또다른 연구과제를 준비중에 있는데요. 관심있으시면 연락바래요!!!! 한국과학기술원 전기 및 전자공학과 통신 연구실 김 도 영 eekdy@kumgang.kaist.ac.kr dykim@datacom1.kaist.ac.kr p.s. 비슷한 연구를 하시는 분을 학회에서 본 적이 있는데요... 어느 학교였는지는 잘 기억이 않나고.....쩝.... 구현 방식은 예를 들어 "고대"라는 단어를 타이핑하고 싶다면 "기역" "오" "디귿" "애" 이런식으로 발음하는 거였어요. 너무 불편하겠지요? (ref. Korea-Japan joint conference on automatic telephony, 1991) |