KAIST

[알림판목록 I] [알림판목록 II] [글목록][이 전][다 음]
[ KAIST ] in KIDS
글 쓴 이(By): sywon (원세연)
날 짜 (Date): 2000년 9월 18일 월요일 오전 01시 12분 28초
제 목(Title): Re: 질문몇가지..답변감사..또질문



제가 답을 할 것이라 되어 있기에 늦었지만 몇 마디... ^^;

다른 분들도 충분히 설명을 했지만, DNA sequence는 한쪽 가닥만 알면 다른 한쪽 
가닥은 완벽하게 결정이 됩니다.  정보적인 측면에서 보면 완전히 그렇죠.  (윽, 
설명이 잘 안 나오는군요.)

하지만, 물리적으로는 두 가닥이 모두 작용을 합니다.  중요한 것 중의 하나가 
단백질이 DNA에 결합을 해서 스위치 작용을 하고 하는 것인데, 이때 물리적으로는 
꼬여있는 두 가닥이 모두 작용을 하게 되죠.  물리적으로는 이렇지만, 우리가 
서열을 기록을 하고자 할 때는(즉, 정보적으로 기술하고자 할 때는) 한 가닥만 
적어놓으면 충분하겠죠.  다른 한 가닥은 자동으로 뭔지 알게 되는 것이니 
말입니다.  (음, 설명이 영...  그리고, 당연한 것을 너무 풀어쓰려니 더 안 되는 
것 같기도 하고...)

그리고, 방향성에 대해서...  단백질은 방향성이 있는 선형 고분자입니다.  
(여기에서도 방향성의 뜻을 또 따지고 들면 꽤...  하여간, 합성해 나가는 데에 
방향성이 있습니다.) 따라서, 이에 대한 정보를 코딩하고 있는 DNA상의 해당부분도 
그럴 수 밖에 없겠죠.  그럼 promoter라던가 하는 단백질을 직접 코딩하지 않은 
부분은 어떤가 하면...  이 역시 결국 가까운 곳에 있는 (방향성이 있는) 단백질 
코딩부분과 연관을 가지기 때문에 방향성을 주는 것이 자연스럽겠죠.  즉, 방향성이 
있다고 치고 묘사하는 것이 더 자연스럽겠죠.  물리적으로는...  단백질 분자가
와서 척 달라붙는 식의 일이 일어나는 것인데...  하여간, 이런 일도 따지니 
괜히 복잡해지는군요. ^^;

아참, 어느 가닥인가를 따져보자는 것이 문제의 핵심이었던 것 같군요.  사실 어느 
가닥이고 따로 없죠.  물리적으로는 그냥 두 가닥이 다 작용을 하는데, 단지 
방향성만 "좀" 있는 것이라 하면 되겠군요.  (이렇게 애매모호하게 적게 
될줄이야... ^^;)

하여간, 찾아내야 하는 것은 어느 가닥이 단백질을 코딩하는가 하는 것이 아니고, 
방향이 어느 쪽인가 하는 것입니다.  (음, 어쩌면 그 말이 그 말이군요. ^^;)  가끔 
(생물학 전공이 아닌 경우에 이 분야 공부를 좀 해보려면) 혼란을 약간 가질 수도 
있게 되는 것 같더군요.  내친 김에 전산적으로 이를 어떻게 찾아내는가에 대해서 
약간...  만약 주어진 sequence가 단백질을 코딩하고 있는 것이라 하면, 각 
아미노산에 대해서 3개의 염기 씩 연결이 된 것이겠죠.  그 다음 20가지 아미노산은 
각기 쓰이는 비율이 다릅니다.  또한, 동일한 아미노산에 대해서 3가지 정도 씩의 
codon(즉, 3개의 염기)이 쓰이는데(4의 3승은 64인데, 아미노산은 
20가지이므로...), 이것도 골고루 쓰이는 것이 아니라 bias가 심합니다.  따라서, 
뒤집어서 읽을 때와 똑바로 읽을 때가 통계적으로 달라진다는 것을 직감하실 수 
있겠죠?  그런데 요즘은 주로 Hidden Markov Model 가지고 하니, 더 상위의 복잡한 
관계들을 다 모델링해서 위치와 방향을 한꺼번에 찾아내는 식이죠. 

그 다음, 이와 관련하여 생물체가 보이는 재밌는 현상 하나.  사람도 그런 
경우인데, 이상하게도 반대쪽 가닥도 통계적으로 "어느 정도 단백질 코딩한 가닥 
비슷하게 생긴" 경우가 많습니다.  따라서, 단순히 "위치"만 찍어내도록 프로그램을 
짰다고 하면, 같은 영역을 양방향 모두에 대해 단백질이 코딩되어 있다고 찍어내게 
되죠.  그래서, 단백질 코딩 부위 찾아주는 소프트웨어들은 보통 이렇게 영역을 
양쪽으로 다 찍어낸 다음에, 어느 쪽이 진짜인가를 다시 판별하는 과정을 더 
넣어놓고 있습니다.  아참, 이것을 자세히 설명하면 상당히 긴 설명이 
되어버립니다.  윗 문단의 내용을 기초로 한번 상상해 보시기 바랍니다.  적어도 
수학적으로는 전혀 그래야 할 이유가 없습니다.  그리고 이 현상을 보이지 않는 
생물체도 많습니다.  그렇다면, 그런 생물체는 생물학적으로는 왜 그럴까요?  아직 
잘 모릅니다.  이런 사소한 것 조차 아직 모르고 있군요.  이런 것들 참 많죠.  

그리고, 염색체 상에서 이러한 방향성의 분포도 궁금하겠군요.  이 방향성은 거의 
random합니다.  물론 특히 세균의 경우 DNA 합성 방향과 일치하는 쪽으로 약간의 
trend를 보이기는 합니다.  이건 DNA의 topological change 때문이라고 설명을 
보통하는데, 두 가닥이 꼬여있는 closed circle (진핵생물에서는 선형이라도 너무 
길어서 pratically closed circle처럼 되겠죠...) 이니 "꼬이는 문제"가 생길 
터이고, 이때 방향성을 이렇게 하면 좀 도움이 되겠죠.  한번 상상해 보시기 
바랍니다.  아참, 이런 식으로 DNA 분자의 topology에 대한 연구도 꽤 한 분야 
합니다.

내친 김에 좀 더 거창한 이야기...  요즘 수백 가지 생물체가 (물론 주로 genome 
size가 작은 미생물들이 대다수를 차지하고 있지만) full genome sequence가 
다 밝혀지고 있잖아요.  엄청들 하고 있으니, 머지않아 수천 가지가 될 것입니다.  
이로 인해 아예 새로운 분야가 왕창 생겨나고 있습니다.  현재 comparative 
genomics니 genome dynamics니 하는 용어 등으로 부르고들 있죠.  좀 더 
classical한 용어로는 genome rearrangement라고 하죠.  전산쪽인 분들...  일종의 
string problem이겠죠?  그런데, 기존에 사람이 적은 text에 대한 것하고는 또 다른 
면들이 많습니다.  상당히 흥미로운 일거리가 왕창 생긴 것이죠.  서울대 컴공과 
쪽에서는 벌써 좀 하는 것 같던데...  하여간, 요즘 이 분야가 풀어야 할 문제들로 
넘쳐나고 있죠.  그것도 엄청 급작스럽게 말입니다.

윽, 꽤 길게 적었군요.  그럼 재밌는 읽을거리였었기를 바라며...

[알림판목록 I] [알림판목록 II] [글 목록][이 전][다 음]
키 즈 는 열 린 사 람 들 의 모 임 입 니 다.