| [ QuizWit ] in KIDS 글 쓴 이(By): pinkrose (Armor) 날 짜 (Date): 1999년 1월 20일 수요일 오후 02시 51분 45초 제 목(Title): [강의] 통계란 무엇인가 5. 예 팬들의 열화같은 성화에 힘입어.. 히히.. ^^ 만약 두이벤트 A,B 의 교집합이 공집합일때 P(A) + P(B) = P(A U B) 라는 고등학교때 배운 공식이 나온다. 이건 사실 코모고로프의 악시옴중의 하나다. additivity rule 이라 불리라불리는데 이악시옴에 P(0) = 0, P(\Sigma) = 1 이라는 두개의 악시옴이 더들어가면 확률메져가 나온다. 보통 probability space 라 하면 이 메져에, set \Sigma , 그리고 시그마 알지브라 혹은 확률론에서는 시그마 필드라 불리는 space of events 가 필요하다. 그래서 흔히 ( \Sigma, \sigma-field, P) 요 세개를 한데 묶어 확률공간이라 칭한다. 만약 두이벤트가 공집합이 아닐경우는, P(A) + P(B) - P(A ^ B) = P(A U B) 임을 증명할수 있다. 이 공식은 재미난게, combinatoric 에서 흔히 inclusion and exclusion principle 이라 불리는 공식의 특수한경우임을 알수있다. 두개만의 이벤트가 아니라 만약 n개의 이벤트가 있을때 일반화는 어떻게 되는지, 숙제로 해보기로하자. ^^ 메져란 개념은 20세기 수학에서 가장 중요한 tool 의 하나다. 수학은 크게 두가지로 나눠진다. 첫번째는 알지브라, 두번째는 해석학. 보통 대학원에 들어오면 둘중 어느것에 집중할지 갈라진다. 이중 메져는 해석학에 있어서 가장 근본 되는 개념이다. 손쉽게 메져가 정말 무언지 살펴보자. 우리가 피라미드의 체적을 구할때 체적이 얼마라고 나올것이다. V를 볼륨이라고 할경우, V(한변이 1인 주사위) = 1 이 나온다. V(한변이 1인 주사위 U 한변이 1인 또다른 주사위 ) = 2 이거 좀전에 말한 additive rule 이다. V(삼각형) = 0 삼각형은 이차원물체라서 볼륨이 없다. 메져란 면적, 체적이라고 손쉽게 생각하면 된다. set의 크기를 재는 함수를 바로 메져라 부른다. 그렇다면 집합의 크기를 요렇게 정의하거나 조렇게정의하거나 여러가지 다양한 경우가 나올것이고 그런 다양한 경우에 따라 메져마다 이름도 각양각색이다. 이차원물체는 메져 V로 측정을 할경우 0이 나오지만 면적이라는 메져 A로 측정을할경우 0이 나오지 않는다. 메져 V로 잴경우 0이 나오는 집합에 대한 연구는 무척 중요하다. 이문장 좀 유치하게 들릴지는 모르겠지만, set of measure 0에 대한 개념의 중요성이란 다음의 파라독스를 생각하면 된다. 기하학에는 바낙-타스키 (Banach-Tarski) 파라독스라는게 있는데 이 파라독스의 주장은 다음과같다. "사과한개를 아주 잘게 쪼개서 다시 재결합을 시키면 태양만한 사과를 만들수있다." 수학적으로 참인문장이다. 펀치라인은 잘게 쪼갠다는데 있다. 얼만큼 잘게쪼개는가에 문제가 있는데, 만약 잘게쪼갠 알겡이가 볼륨이 존재하면 (measure 가 양수이면) 불가능하지만, measure 0 이 될때까지 쪼개고 재결합시키면 out of thin air 에서 코끼리라도 만들수 있다는 소리다. 유한한 경우는 결코 나타날수없는 모순인데, 무한이나 continuity(연속성) 이 결부되면 반드시 등장하는 파라독스다. 제논의 파라독스도 비슷한 유형이다. 이런 pathological case( 수학에서는 이런 비정상적인 케이스들을 흔히 페또로지칼 하다고 한다.)들이 수학적 사실뿐만아니라 물리적현실에서도 사실이라면 얼마나 이세상은 헤괴해지겠는가? 에너지를 무한히 뻥튀기해낼수 있을테니.. ^^ 이런케이스들은 수학자들에게도 존나리 피곤한 케이스다. 뭔가 분석을할려고 하면 쓸데없이 하얀 코끼리들이 튀어나오면, 시메트리와 unity, cohesion을 최고로 치는 수학의 아름다움에 지지직 금이 가지 않겠는가? 그래서 나온게 이런 measure 0인 집합들은 우리 신경쓰지 말고 좀더 근본적인 핵심에 접근하자 해서 나온게 바로 equivalence class 라는 개념이다. 이건 정수론에 있어서 mod operation하고 같은 개념이다. 정수를 2로 나누면 숫자는 두개로 크게 갈린다. 홀수와 짝수로. 마찬가지로 measure 0 인 집합으로 크게 나눈다 (?) 고 생각하면 집합들이 홍해가 갈라지듯 쫘아악 갈라지게된다. 만약 렌덤바리에이블 X,Y 가 한점만 빼고 ( measure 0 인 부분만 빼고) 똑같다면, 보통 X= Y almost surely 라고 한다. 이말의 의미는 확률에서는 스페이스가 이벤트들이니까 almost surely happen 의 준말이라고 생각하면 된다. 그반면 해석학에서는 전통적으로 공간을 스페이스로 삼기에, X = Y almost everywhere 라고들 한다. 이런건 사실 현실세계에서는 별로 신경쓸필요없는 짜증나는 문제들이다. 지금까지 이 하품나는 빤한 소리들을 마치 대단하다고 저렇게 강의를 하는가 의아해하며 하품하는 학생들이 있겠지만, believe me, 무척 중요한 것들이다. 사실 나는 통계가 진정 어떠한 학문인지, 대학교에 들어와 수리통계를 택하면서 알게되었다. 그전까지라면 통계 = 병아리 감별 = 숫자 계산 = 투표계산 = 저 학문의 존재 이유? 머리에 곰팡이핀교수들이 밥벌어먹을려고 만든 학문. 뭐 이정도의 무지와 편견을 가지고 있었다. 통계가 무언지 한마디로 하라하면, quantitative analysis of data/information 이라 할수있다. 컴퓨터사이언스는 그반면 quantitative processing of data/information 이라 말할수있다. 데이타라면 무엇이든지 된다. 투표분포, 얼굴생김새분포, 시간 alocation,logistics, 심지어 생물학에있어서 유전에 의한 나무잎사귀 모양의 분석. 이 우주공간에 있는 모든 숫자,형태,성질등이 연구대상이다. 문제는 이런 것들을 어떻게 수학적 분석을 할수있는 형태로 변화를 시키는가에 있다. 예를 들면, 사람마다 얼굴생김새가 다르고 인종마다 얼굴생김새가 다르다. 만약 컴퓨터로 디지탈 이미지가 (흑백) 백인종인지 황인종인지 구분을 하려면 필연적으로 shape analysis등의 통계적 수치화를 거쳐야만 한다. 아 하품~ 내일 계속. |