QuizWit

[알림판목록 I] [알림판목록 II] [글목록][이 전][다 음]
[ QuizWit ] in KIDS
글 쓴 이(By): pinkrose (Wenger)
날 짜 (Date): 1999년 2월 11일 목요일 오전 12시 59분 29초
제 목(Title): [강의] 통계란 무엇인가? 9



열성팬께서 계속 써달라고 해서, 히히 이렇게 다시또 팬을 듭니다. 
잠시 학교가기전에 아침밥먹으면서 쓰고있어요.

통계란 무엇인가 ? 9    Shape Analysis 

오늘은 나의 전문분야에 대한 소개를 하기로 하자. 많은 사람들이 통계에
대한 이해가 부족하다. 통계는 수학과는 가장 근접하면서도 많은 차이가
나는 학문이다. 학문의 방법론으로는 오히려 순수수학하고는 거리가 멀고,
차라리 물리학이나 화학같은 적어도 약간의 실험적 데이터를 기본으로 하는
학문과 더 근접하다고 할수있다. 통계에도 세부적인 분야가 나누어진다. 

가장 크게는 수리통계,mathematical statistics로 이론통계의 최고봉이다.
수학과 방법론에서 거의 차이를보이지 않고있으며, defition, theorem, proof
스타일로 통계의 논리적 기초를 제공하고 있다. 그반면 실험통계,응용통계쪽은
통계의 다양한 테크닉을 병원,증권시세,로지스틱스,전화국 net-load등 다양한
곳에 응용한다. 실제로 내 지도교수의 ex-ph.d. 학생한명이 재작년에 Bell Lab
에 취직을 했는데, 말을 들어보니 math lab, stat lab등이 있어서 통계학
박사학위 소유자가 약 15명정도 같은 렙에서 일하고 있다한다. 뭘하냐고 했더니,
전화 네트웍자체가 바로 통계분석이 필요한 거대한 데이타라는 거였다. 예를
들면, 전화 네트워크는 planar graph 로 볼수있는데, edge를 전화의 커넥션,
node를 수신하는 사람과 송신하는 사람. 그러며서 전화사용 bill 계산하는 
재미있는 통계적 방법에 대해서 소개를 해줬었는데 지금 까묵었다. ^^ 

이론과 응용통계의 중간쯤에 있는게 거의 대다수의 통계학자들이다. 이들 
통계학자들은 이론과 응용을 동시에 할줄 알아야한다. 주어진 데이타를 그자리에서
분석하는데, 분석하는 자체에 실험정신이 필요하다. 통계기법중 어느걸 사용해야
하는가결정해야한다. 에러분석은 극히 통계에서 자그마한 일부분이지 전부는 아니다.
통계를 실제적으로 데이타에 응용하기위해 사용하는 모델이 있는데 그걸 보통
 null model 혹은  null distribution이라한다. 물리학에서 충돌에 대한 
시뮬레이션을 할때 탄성율을 1로 둘지 0.98로 둘지 생각하는것하고 비슷하다. 
일단 데이타에대한 모델이 있으면 이제 이모델과 데이타하고 fit을 측정해야
한다. 지난번에 말한바와같이 least square fit이 있을수 있고, PCM(principal
component analysis)가 있을수도 있고 아니면 임의의 L_n fit이 있을수도 있다.
기존의  null model과 무척 근접하게 될경우 통계학적 결론은 이 데이타는 
이러이러한 모델을 따른다는것이고 근접하지 않게될경우 통계학적 결론은
이 데이타는 이러이러한 모델을 따르지 않는다는 것으로 나온다. 이것을 우리는
흔히 hypothesis testing이란말로 고딩때 병아리 감별을 해야만 했던거였다. 

통계적 결론은 결코 절대적 진리가 될수없다. 아직은 응용통계특히 사회학이나,
심리학쪽으로 제대로 자리를 잡지 못하고 있다. 사회통계학이나 통계심리학같은
분야는 아직은 초창기라고 말해야겠다. 심리학과에도 통계학자들이 있기는 하지만,
수학이라는 높은벽에 막혀 제대로들 하는것같지는 않다. 통계의 진정한 파워가 
사회학에 완벽하게 응용될경우 무슨일이 벌어질까? 그건 바로 인간이 우리사회의
미래를 예측할수있게된다는 의미다. 통계는 과거에 벌어진 데이터를 분석 어떠한
룰을 찾아내는것뿐만 아니라, 그러한 룰을 바탕으로 미래를 예언하는 수학적
방법론을 제시한다. 예를 들면 증권시세분석이나, 투표권분석이 바로 미래분석
지표로 사용된다. 한국에서는 투표통계분석자체에 정치적 영향력을 미치는
경우가 대부분이라 결코 객관적인 통계자료를 얻는다는게 힘들다. 통계질문의
뉘앙스만 조금만 바꿔도 투표의 가상승리자가 손쉽게 바뀐다. 그러나 실제
이론적으로는 한국같은 싸이즈일경우 몇천명의 투표성향을 살피면 반드시! 
투표결과를 약 5% 혹은 %1 이내로 예언할수가 있다. 미국이나 캐나다의 선거의경우
이변이란 결코 거의 일어나지 않는다. 간혹 투표통계가 예측못하는 이변이
일어나기는 하지만 드물고, 대부분이 통계오차내에서 결과와 일치하곤한다. 

실제로 내가 하는 일도 실험과 이론을 겸비한다. 뇌병원에 가면 뇌단층촬영을
해주는데 PET, fMRI scan이라고 일컬어진다. 이걸 컴퓨터 file 로세이브를한다.
세계 3대 뇌신경연구소중 하나가 우리학교의  MNI(montreal neurological 
institute)인데 이곳상주 연구원이 백명이 넘고 다른기관에 소속한 
비상주연구원까지 합하면 무척 많은수가 뇌신경관련일을 하고있다. 내가하는일은
브레인 스케너로 스캔된 삼차원 영상의 통계적 분석이다. 연구소에서 자체개발한
minc파일 포멧으로 압축되어있는데 이걸 text file로 바꾼다. (바꾸게되면 
1mm resolution으로 찍은 삼차원영상일경우 40메가가 나온다. voxel size 백만 ) 
사실 이런이야기 해주면, 통계를 제대로 이해못하는 많은 의대생들의 비웃음을
간혹 사는경우가 있다. 단층촬영사진 제대로 의학적 분석도 못하는상태에서 
수학적으로 뭘끼짓끼짓한다고해서 도대체 무슨 결론이 나올까 우습다는식으로
말해서 날 가끔 열받게 만드는 경우가 있다.  ^^ 내가 학위를 받기위해서는
다음과 같은 일을 해야한다.
1. 40메가 * 100명 = 4기가의 voxel분석 
2. 통계분석을 위한 최고로 빠른 알고리듬 개발
3. 컴퓨터로 돌리기. 80메가 돌리는데 그릴경우 10시간 넘게걸린다. 
4. 이러한 데이터 분석을 위한 좀더 효율적이고 기발한 통계 방법론 개발. 
5. 결론쓰기. 

현재 가장 중점을 두는게  브레인에 있어서  deformation problem 이다.
뭐냐면 임의의 두개의 브레인 3차원 영상을 주고 smooth 한 function f:R^3--> R^3
을 구해야하는데  such that 두개의 브레인이 smooth하게  deform을해야한다. 
이건  structural deformation problem이라하는데 이문제와 functional activiation
에관한 연구와는 별차이가 없다. 이문제가 왜이리 중요하나면, 미래의 remote
surgery 알고리듬을 짜기위한 필수단계이기도 하거니와 이게 되어야, 비로써
서로 각기 생김새가 다른 브레인 데이타들을 겹쳐서 실제적인 통계분석이
가능하다. 현재 이 디포메이션분야로 가장선두적인곳이  UCLA브레인랩하고 
쎄인트 루이스에있는 와싱턴대이고, 우리학교의 경우 이쪽분야는 그렇게 큰관심이
없어 하는사람도 거의없고, 좀 뒤쳐져 있다. 사실 내지도교수도 이쪽은
지금 나하고 하는게 처음이라 아는게 나보다 없다. 여러가지 테크닉이 있는데,
이미 엔지니어링에서 많이 개발된 테크닉들이다. 특히 AI에서  machine vision
등때문에 개발된 알고리듬들이 있다. 아마도 옛날 바이킹탐사때문에 개발에
불붙었던것같은데 optic flow라는 motion detection 알고리듬을 지금현재 
응용해보려하고있다. 보통은 유체역학의 네비어-스톡스 방정식을 풀어서 
deform하게된다. 이경우 시간이라는 가상적 바리에이블을 도입해서 deformation
velecity라는 역시 가상적 quantity를 계산하게된다. 



오잉! 샤워하고 학교가야겠군요. 낼모래계속. 




    They said "What sign can you give us to see, so that we may believe you?"
[알림판목록 I] [알림판목록 II] [글 목록][이 전][다 음]
키 즈 는 열 린 사 람 들 의 모 임 입 니 다.