| [ QuizWit ] in KIDS 글 쓴 이(By): pinkrose (Wenger) 날 짜 (Date): 1999년 1월 27일 수요일 오전 01시 34분 08초 제 목(Title): [강의] 통계란 무엇인가 8. 앗 백두아저씨 오랫만이에요. ^^ 요즘도 DNA sequence가지고 장난치는지요? 요즘 보니까 bio-computing이 대히트더군요. 자그럼 강의를 계속... 퀴즈보드에도 바쁘시더라도 자주 오시면 히히... 푸리에 씨리즈를 이야기하다 말았는데, 보통 푸리에 씨리즈라고하면 sin,cos 함수로된 씨리즈를 생각할것이나, generalized fourier series라하면 더이상 싸인이나 코사인 함수일필요는 없다. 어떠한 함수들이라도 orthonormal이란 성질을 만족시키면 일반적 푸리에 씨리즈처럼 똑같은 성질을 가지게된다. 그리고 이런 다루기 쉬운 함수들을 기저(basis... 히히...한국말이 계속쓰다보니까 생각이 살아나는군요. ^^ 뿌듯.)로 삼아 어떠한 함수공간(subspace) 도 확장(span)할수 있게되는것이다. L_2 스페이스상에서 이런 기저함수(basis function)으로 확장할경우 이러한 확장은 가장 최적(optimal)하게된다. 옵티말하다는건 |f|^2 = <f,f> 로정의되는 sum of squares or integral of squared function이 최소화가 된다는의미이고, 결국 linear regression 이란건 이러한 L_2 스페이스의 한성질을 통계라는 새로운 표현양식으로 표현한것에 불과하다는걸 알수있다. 결론: least square 로 무엇이든 하게되면 언제나 '환상'과 힐버트스페이스(L_2) 를 떠올리도록 하자. ^^ 잠시 머리를 식힐겸, 실제 통계학자들은 어떠한 data들을 가지고 연구를 하는지 실제적인 케이스를 들어 살펴보자. 통계가 생물학이나, 의학쪽으로의 응용은 많이 알려진 사실이다. 바이오 스텟이나 에피디아몰로지등이 그 한예이다. bio stat으로 최고로 치는대학은 시에틀에 있는 와싱턴대학이다. 지금이곳이 바이오 스텟의 메카이다. 하바드 대학의 경우, health center등 실제 통계를 하는곳이 4군데의 연구쎈터로 분산이 되어있지만, 통계논문의 실제 output은 세계 1위를 달리고 있다. 1일당 교수 논문수등 실제로 카나디안 통계학회에서 전세계 통계조사기관을 상대로 랭킹을 메긴적이있다. (작년이었나...canadian journal of statistics에 발표되었음 ) 통계학자들이 할게없어서 통계조사기관을 상대로 통계조사를 한다는 아이러니. ^^ 일등부터 100등까지 메겼는데, 국가별 랭킹은 아마 미국,영국,카나다,인도 순이었다. 재미있는건왜 인도가 통계에서 초강세를 보이는건가 하는건데 알수가없다. 라오(Rao)라는 이름을 가진 인도통계학자 들은 지금전세계에 수십명이 있다. 가끔 책이나 저널을 보면 어느 라오가 어느라오인지 알수가 없이 헤깔리는 경우가 종종 생기곤 한다. 그러나 The Rao라면 지금현재 인도 통계 연구소에 있는 라오를 말한다. 이 라오는 수백페이지에 달하는 논문을 썼고, 지금까지 살아있는 통계학자로는 가장 유명한 사람이다. 맥길에도 통계가 수학과와 합쳐져있고 수학에 비해 무척 싸이즈가 적은편인데, 그래서 통계교수는 7명인데 몇년전까지만해도 인도교수가 2명이나 되었다. (지금은 은퇴해서 한명. ) 아마도 인도나 캐나다가 통계에 강한이유라면, 원래 영국의 영향때문이 아닐까 생각이 든다. 통계의 본고장이 바로 영국이다. 여러분이 대부분학교에서 배우는 거의 모든 통계의 디스트리뷰션,방법론등이 영국에서 탄생했다. 물론 지금은 많이 바껴 미국에서 영향력있는 연구결과가 더많이 나오고 있는실정이지만. 인상적인 랭킹으로는 하버드의 경우 연구기관들이 잘게 나눠져있어 연구업적이 분산, 그러나 다들 상위랭킹에 있었던것같고, 카나다 대학중에는 워털루대학이 9위에 랭킹이 되어있었다. 워털루대학은 수학이 아예 faculty로 되어있고 수학단과대학내에 순수,응용,통계,컴퓨터사이언스등이 들어있는곳이다. 인상적이었던거로는 스탠포드가 의외로 랭킹이 높아 10위안에 들었던걸로 기억한다. (전세계 대학,연구기관들을 총망라했으니 여기서 10위안에 든다는건 대단한거다. ) 동양권대학중에는 역시 동경대가 들어갔는데, 이건 기억이 가물가물한데 중위권 정도였지 않나한다. 하버드의 경우는 그런데 솔직히 의학관련논문들이 너무많아 논문숫자 계산에 있어서 약간의 bias가 있지 않나한다. 스탠포드가 기억에 남았던 이유는 거기 통계교수가 무척 적은걸로 아는데 수치로본바는 일인당논문수가 일년에 7편이 넘었던걸로 기억한다. 아참 랭킹을 매길때 조건이 반드시 권위있는 통계학지에 실려야했는데 아마 통계학지 9권에 실리는 숫자만 가지고 조사를 한걸로 안다. 그래서 시시한 저널에 실리는건 계산을 하지 않았다. 일년에 7편이면 그것도 중요 통계학지에 실리는거면 대단한거다. 으악..학교가야겠군요. 요즘 dataset 100만개 (파일싸이즈가 텍스트파일로 2메가바이트더군요. ^^) 로 뭘계산을 하는데, 단순 이터레이션만하는데도 뭐 화장실갔다오는데도 맹~ 하니 있데요. 흑흑... 아 슈퍼컴퓨터가 그립니다. 다음편예고: digital image analyis and statistics. They said "What sign can you give us to see, so that we may believe you?" |