QuizWit

[알림판목록 I] [알림판목록 II] [글목록][이 전][다 음]
[ QuizWit ] in KIDS
글 쓴 이(By): pinkrose (Wenger)
날 짜 (Date): 1999년 1월 24일 일요일 오후 01시 45분 18초
제 목(Title): [강의] 통계란 무엇인가 6.


이제부터 통계에 대한 이야기를 시작하자. 지금까지 서론이 길었던건
통계라는 학문의 탄생까지는 실제적인 수학적 기초가 완벽해야 했음을
말하고자했다.  파스칼의 도박이론은 확률론의 기초라 볼수있다. 그렇다면
통계방법론의 처음은 어디였을까? 그건 바로  least square method라
할수있다. 이방법은 통계에 익숙치않은 과학도라도 들어보았을 방법이다. 

흔히들 가우스가 발견한 방법이라고 하는데 꼭그렇지만은 않다. 라그랑지에게
그리고 다른  independent하게 발견한 여러사람들에게 그 크래딧을 주어야할것이다.
이방법은 1800년대 초까지 거슬러올라간다. 18세기나 19세기에는 뉴우튼의
만유인력의 법칙을 이용한 다양한 계산들이 한창이었다. 태양계의 여러
행성들의 운동을 계산하고 그러한 불규칙성에서 새로운 행성을 발견하기도 하고...
18세기 천문학자이자, 수학자였던 (그당시는 큰구분이 없었다.)  메이어의
경우  달의 세차현상에 대해 정밀한 계산을 했다. 달은 한면을 지구를
향해 항상 자전과 공전을 한다. 그러나 세차현상때문에 달표면의 60%를 
지구에서는 관찰할수있다.  (50%가아니라, 그렇다면 여기서 재미있는 기하학적
문제를 낼수도 있겠다. 60%라는 수치를 이용 세차각도를 구하라는... ^^ )
이런 천문관측들에 세계의 가장 똑똑한 수학자들이 엄청난 시간을 들여 계산을
했는가는 그당시 인텔렉츄얼들에겐 천체의 운동이란 가장 prized 아카데믹
성과였기때문이다. 더더구나, 계산자체가 수학적 challenge그자체였다.  

예를들면 메이어의경우 달의 분화구를 특정좌표로 그분화구의 관찰각도등을 측정
그걸로 세차각도를 구했다. 문제는 메이어의 계산에는 3개의 unknown variables
가 있는데, 측정은 27번을 하게되어 27개의  linear equations가 나온거였다.
overdetermined system of equations 라고 할수있겠다. 사실 지금의 
현대적이론에서는 변수보다 더많은 공식이나 더적은 공식이 있다해도 변수를
구하는데 아무런 지장이 없다. 하지만 그당시는 3개의 변수면 반드시 3개의
공식이 있어야 풀리기때문에 그외의것이라는것은 상상조차 못하던 개념적으로
아직 발전하지 못한때였다. 이건 마치 한때 이차방정식의 음수의 근을 거부했던 
중세 수학자들의  틀에박힌 관념과도 비슷했다. 물론 변수가 3개이면 공식이
27개일때  그리고 이것이 실제적인 물리적 관측의 결과라면 이 선형계가
inconsistant 할거라는건 자명한 이치다. 예를들면


y = 3
x = 1
x + y = 5

라는 계가 있다하자. 명백히 inconsistant하고 해는 존재하지 않는다.
그러나 여기서 끝내서는 통계는 나오지도 못했고, 인간은 달나라에도 못갔을것이다.
어떠한 수학적 공식이라도 그에 상응하는 variational formulation이 존재한다.
바리에이셔날 포뮬레이션이란 어떤 수학적 공식이주어져도 이공식과 상응하는
minimum or maximum 포뮬레이션이 있다는소리다.  예를들면, 뉴우턴역학은
헤밀톤역학과 동치다. 뉴우턴역학은  F=ma라는 공식을 푸는반면 헤밀턴역학은
라그랑지안(Lagrangian) 이라불리는 위치에너지와 운동에너지의 선형함수의  
extremum 을 구함으로써 역학문제를 해결한다. 

헤밀턴역학은 크게 variational problems이라는 수학분야의 극히 일부결과이다.
바리에이셔날 문제의 접근방법은 다음과 같다. 
"모든편미방은 거기에 상응하는 바리에이셔날 함수가 존재하고 이편미방은
이러한 바리에이셔날 함수 (보통 J로 지칭된다.) 를 인테그랄한것의 최소값으로
주어진다. 뉴우턴 역학  F=ma가 극히 단순한형태의 편미방임은 명백하고 고로
여기에 상응하는 헤밀턴역학은 존재하는것이다. 마찬가지로, 이러한 접근방법이
일반상대성이론에서 소위말하는  geodesic을 미니마이즈하는것이다. 

일반적으로 편미방 방정식 그자체를 풀기보다는 거기에 상응하는 바리에이셔날
문제를 푸는게 더 유익한경우가 가끔있다. 가장 큰이유는 바리에이셔날 문제의
해가 일반적으로 편미방의 해보다 더크기때문이다. 다음의 예를 보면 명백해진다.


y=f(x)   가 만약 참일경우    min ( integral ( |y-f(x)|^2 )) 의 해는 

y=f(x)로 주어진다 고로 바리에이셔날 문제의 해집합이 명백히 더크다. 
(물론 수학적으로 picky한 독자가  y=f(x) a.e. 어쩌고 항의하면 귀챦게
더설명을 해야겠지만... ^^ ) 

편미방뿐만아니라, 이러한 바리에이셔날 포뮬레이션은 일반 선형방정식에도
존재하고 이경우는 인테그랄대신 보통 써메이션(summation) 으로 주어진다.

그리고 함수차의 제곱의 합을 최소화한다는데서 통계방법론에서 가장유명하고
가장 기본적인  least square method, linear regression method가 나온것이다.
결국 통계방법론의 linear regression 은 그래서 가장 원시적인  바리에이셔날
포뮬레이션이라고 보면된다. 함수차의 제곱의 합을 최소화하는데는 크게 두가지
방법이 있다. 흔히들 아는 y축상에서 최소화시키는걸 선형 리그레션이라하고,
유클리드 공간의 유클리드 디스탄스를 최소화시키는걸 principal component
analysis라 부른다. 그런데 왜 하필 제곱의 합을 최소화하는가? 그건 물리적
현상이 벌어지는 우리가 사는 우주공간의 구조와 밀접한 관계가 있다. 
그건 바로 우리가 말하는 이 유클리드공간이 바로 힐벗 스페이스 (Hilbert Space)
이기때문이다. 



이번편끝. 다음편 광고.

선형 리그레션과 푸리에 씨리즈와의 밀접한 상관관계에 대해....
통계에 관심많은분들이 읽었으면 좋겠네요. 제 강의 그만큼 자신감이 있으니까. ^^




    They said "What sign can you give us to see, so that we may believe you?"
[알림판목록 I] [알림판목록 II] [글 목록][이 전][다 음]
키 즈 는 열 린 사 람 들 의 모 임 입 니 다.