| [ PhilosophyThought ] in KIDS 글 쓴 이(By): chopin (**쇼팽**) 날 짜 (Date): 1999년 3월 6일 토요일 오전 04시 26분 08초 제 목(Title): [계층구조론] 답변: 개념화와 모델링 개념화와 모델링 pinkrose wrote: >결론은 바텀탑모델이 탑바텀모델과 상호협조, 컴플리멘트의 관계일뿐이고 >모델 specific한 케이스이지, 바텀으로가면 갈수록 물리적현상에 대해 더 >잘이해할수있다는 파라다임은 이제는 한물간 파라다임이 아닌가합니다. >(언제부터? 지금이순간부터. ^^ ) >위의 구름생성글 보세요. 쓰다보니까 쓰기전엔 생각도 못해본 결론에 도달하게 >되었군요. 쇼팽씨의 하부구조 --> 상부구조의 과학적 접근방법론에 대한 >가장 결정적인 반론이 아닐까하네요. ^^ ==> Bottom-Up과 Top-down 접근 법이 상호 협조 하는 것이 매우 중요합니다. 그렇다고 모든 문제에서 모두 같은 비중으로 둘다 50%씩 중요하다고 말하는 것은 문제가 있습니다. 분명 대부분의 문제에서는 Bottom-Up접근을 제대로 하지 못하면 Top-Down 방식이 문제해결에 아무런 도움을 주지 못합니다. 그 이유는 Computational한 관점에서 봐야 명확한 이유를 알 수 있다. 인간이 접근하지 못하고 있는 많은 문제의 경우 비선형모델들이고, 그 모델들은 Top-down접근법과 같이 선형적인 추론만이 가능한 방법으로는 차폐된 벽을 뚫고 진리의 방 안으로 접근할 수 없습니다. >하늘의 구름의 응집력에 대한모델이라면 당연히 분자레벨일지모르나, >하늘의 구름의 shape이 시간에 따라 변하는걸 보려면, 분자레벨의 정보를 >아무리 많이 긁어모아도, 이걸 diffusion 모델등으로 rebuilt하게되면, >데이타가 많이 소실됩니다. 그러나, 그냥 수증기분자레벨의 데이타만 잔뜩 >모으면 비록 완벽한 데이타셋이 될지는 모르지만, 구름모양에 대한 설명은 >결코 아닙니다. 그리고 구름모양에 대해 아무것도 알수없습니다. =>data reduction은 모두 단 하나의 예외 없이 주어진 데이타에 대해서 주어진 모델만을 적용할 수 있습니다. 이는 곧, 모든 data reduction은 주어진 데이타에 데해서 주어진 모델밖에 세우지 못하는 선형 알고리즘밖에 존재할 수 없다는 것입니다. 만일 튜링머신에서 비선형모델에 해당하는 일반적인 data reduction을 만들어 낸다면 만델 브로트 곡선을 집어넣으면 만델 브로트 방정식을 알아내서 데이타와 방정식을 치환하여 압축을 할 수 있다는 황당무개한 결론에 이르게 됩니다. 우리가 알고있는, 그리고 세상에 나와있는 모든 data reduction알고리즘은 선형알고리즘입니다. 비선형알고리즘을 적용하는 경우 거의 무한대의 시간을 필요로 하기 때문에 실제로 적용 불가능하고 이런 경우에 계산 불능이라는 표현을 쓰게 됩니다. >통계의 방법론에 따르면 다음과 같은 결론에 도달합니다. > "데이타의 소실을 모델의 fit으로 보충할수있다." >즉 상위구조의 데이타와 훌륭한 모델은 충분히 하위구조의 더완벽한 데이타보다 >훌륭할수가 있다. 많은 과학적 방법론이 비록 통계의 완벽한 수학적 언어를 >따르지는 못하지만, 이것에 기인합니다. >일부러! 데이타를 모델(혹은 공식) 과 맞바꾸게 되는것입니다. => 주어진 데이타에 적용될 수 있는 모델은 무한대 입니다. 이 때 어떤 모델을 적용할 것인가 고르는 문제가 바로 비선형의 경우에 계산 불능의 문제에 해당됩니다. 확률통계의 모든 수학적 언어는 선형 모델입니다. 비선형 모델을 예측하는 확률통계는 존재하지 않습니다. "예측이라는것 은 선형에서만 존재한다." "비선형에서는 관측만이 가능하다." >예를들면 프랙탈 컴프레션을 들수있습니다. 프랙탈 컴프레션하게되면, >잃어버리는 데이타가 장난이 아닙니다. 그 일어버리는 데이타를 동등한 >fit(프렉탈알고리듬= 상위모델) 로교체해서 수십배로 싸이즈를 줄일수 있는겁니다. >자이경우 100메가짜리 오현경 홀딱사진을 원합니까? 아니면 5메가짜리 >홀딱 프렉탈 컴프레션사진을 원하겠습니까? 95메가바이트의 데이타를 >reduction 했습니다. 그렇다면 95메가의 데이타는 어디로 간걸까요? >바로 프렉탈알고리듬(모델!!!)이라는 모델구성에 쓰인거지요. >결국 데이타 = 모델 하고 동등합니다. => 모든 프랙탈 알고리즘은 주어진 그림에 따라 다른 프랙탈 알고리즘이 적용되야 최적의 압축률을 얻을 수 있습니다. 모든 프랙탈 알고리즘도 그 알고리즘으로도 전혀 압축을 못하거나 압축후에 오히려 사이즈가 커지는 그림들이 존재합니다. 따라서 일반적인 경우에 그리고 오현경이 아닌, 이응경이나 개구리왕자 그 누구의 사진을 넣어도 그리고 압축률이 최적인 알고리즘을 찾는 문제는 Top-Down접근 방식 의 문제이면서 계산 불능의 문제입니다. 즉, 임의로 주어진 데이타를 압축하기 위한 적절한 모델을 적용하는 것 자체가 불가능하다는 뜻입니다. 주어진 데이타가 정보가 중복되거나 불필요한 부분이 "정해진 형태"로 주워진 경우만 압축이 가능 합니다. 당연히 다른 형태로 중복된 정보는 압축 불능인 결과를 만들고맙니다. 즉 프렉탈 알고리즘에서의 Top-down접근 문제는 주어진 그림을 압축하기 위한 프렉탈 알고리즘을 자동으로 찾아내는 문제이고, 이 문제는 아마도 NP-Hard보다 더 어려운 클래스에 속한 계산 불능의 문제가 아닌가 생각합니다. 따라서 이런 문제의 경우 당연히 하부구조로 내려가서 그림의 프렉탈 성질을 찾아내서 알고리즘에 반영하고 상부구조의 압축과 복원을 해내는 것입니다. 그렇다면 Bottom-Up접근법이 쓰인 예에 해당하죠. > >프렉탈 컴프레션이라는 예가 아마도 통계의 방법론을 설명하는 기가막힌예가 >아닐까 생각하네요. 렘펠집이나 FFT 에 근거한 컴프레션등 모든 컴프레션이 >바로 비슷한 원리에 근거합니다. >즉, 데이타를 공식과 맞바꾸자는거지요. 데이타등가의 원리에 따르면, >(개구리소장이 지금만든거라, 반은농담이니...넘 진지하게 받아들이지 마세요.) => 데이타 등가의 원리는 저도 오래 전에 생각해 낸 원리이고 또한 모델링이 필요한 일을 해본 사람이면 누구나 한번쯤 다 생각해 낸 원리입니다. 그리고 진지하게 받아 들일 만한 문제입니다. 앞으로도 이 개념을 버리지 말고 잘 이용해 보면 여러가지 중요한 결론에 도달 할 수 있을 것이라고 생각합니다. 어쩃든 전공도 아니면서 개념을 척척 만들고 습득하는 능력은 탁월하신것 같군요 ^^ >만약 A 가 collection of data라면, 그리고 이러한 데이타는 전부 숫자로 >표현이 가능하다고하면( 뭐 하위구조 데이타들이야 '흥분' '화남' '슬픔'등의 >추상적 데이타들이 없기에 충분히 데이타의 digitization이 가능하지요. >A에서 B만큼의 데이타를 뽑아다가 요걸 기반으로 이전체 데이타가 따라야할 >공식,룰,법칙등을 만든다고 하면, 데이타 등가의 원리(information invariance >principle)에 의해 > >엔트로피(A) = 엔트로피(A\B) + 엔트로피(B의 데이타로 만들어진 모델) > >입니다. 음냐... 샤논은 여기에 대해 뭐라고 말할지 모르겠군. =>Information Theory와 staticstical inference 분야들를 들여다보면 이런 식의 이론들이 실제로 만들어져 있습니다. 이 부분 이론에서 재미있는것들이 많은데 가령 예를 들면 아무런 관련이 없이 구축된 두 확률모델에 대한 객관적인 성능의 우열을 엔트로피를 측정함으로서 가릴 수 있습니다. 실제로 자연어처리 분야에서는 한국어와 영어들을 각각 처리하는 확률 모델들을 만들고 엔트로피를 비교해서 모델들의 성능평가와 함께 나아가 한국어와 영어의 언어상의 복잡도를 측정하는 작업을 하고 있습니다. 한국어와 영어비교 결과는 어떨까요? 오래되서 정확히 기억은 안나는데 현재 주어진 모델로봐서는 한국어가 영어보다 엔트로피가 낮습니다. 다시 말하면 한국어라는 언어가 영어라는 언어보다 더 체계적이고 과학적이라는 심심풀이용 주장을 하는 사람을 위한 근거로 사용될 수도 있을 겁니다. 어쩃든 수학적으로, 이론적으로 영어는 한국어보다 복잡하고 덜 체계적인 언어입니다. 언어는 복잡할 수록 나쁜언어고 간단명료할 수록 좋은 언어입니다. 언어이야기로 가면 또 관련없는 이야기가 너무 많이 나올거 같으니까 여기서 잘라야 겠군요. 주어진 모델에 의한 엔트로피 측정이론은 샤논이 만든 것은 아니지만 개구리 왕자님이 샤논보다 일찍 태어나기만 했어도 샤논은 세상에 빛을 못보는 불쌍한 신세가 되지 않았을 까 하는 생각이 드는데 안타깝군요 ^^ >과학의 목적이 바로 데이타의 완벽한 법칙으로의 reduction이지요. >이게 바로 물리학그자체가 아니겠습니까? >위의 등식은 부등식으로 고쳐야겠군요. 왜냐면 예를들면.. >숫자 100개주고 F=ma라는 공식을 유도한거보다는 F=ma라는공식은 >무한한 데이타셋을 창출하기때문이지요. > >한걸음더나아가서, 완벽한 데이타셋보다 좀엉성한 모델이 더 좋은이유? >그건 당연히 폴디락의 양전자 prediction등에서 알수있는것아닙니까? >결론은 좀엉성한 모델이 자연현상을 설명하는데 완벽한 데이타셋(이거는 >어쩔수없이 설령 모델링을 한다해도 하위모델이될수밖에업음)보다 낳을수가 >있다는 결정적 반론!. 우선 이 정도면 제 의견과 생각이 어떤 것인지 제대로 전달 되었으리라 생각합니다. 그래도 노파심에서 위의 의견에 답변을 해야죠... 위 문제에 대해서는 물리학이던, 수학이던 우리의 과학체계와 학문체계는 선형의 경우에만 국한 되어왔다고 말하고 싶습니다. F=ma의 공식이 유도 될 수 있었던 이유는 이 공식이 선형이었기 때문에 가능했던 것입니다. 선형이 아닌 경우는 하위레벨로 내려가서 선형인 레벨에서 모델링해서 윗레벨로 올라간 경우 뿐입니다. __ 쇼팽 |