windows

[알림판목록 I] [알림판목록 II] [글목록][이 전][다 음]
[ windows ] in KIDS
글 쓴 이(By): terzeron (microkid)
날 짜 (Date): 2002년 2월 26일 화요일 오전 09시 58분 32초
제 목(Title): Re: ksc5601과 euc-kr


한글 인코딩, 문자 집합에 대한 이야기는 저도 머리가 아프지만...

KS C 5601 (이후에 5657, 5700등이 나왔습니다)는 가나다라 등의
글자 순서를 뜻하는 추상적인 문자 집합(character set)입니다.
컴퓨터에 어떻게 저장되는지는 신경쓸 일이 아니죠. 이것은 87년에
정부가 주도하여 완성형 글자들만을 표준에 넣어버린 것입니다.

EUC-KR은 KS C 5601에 나와있는 글자들을 어떤 비트스트림으로 
표현하여 컴퓨터의 메모리에, 디스크에 저장할까를 정해놓은 
인코딩(encoding) 방법입니다.

마이크로소프트 제품에서 사용되는 "인코딩"이니 "문자 집합"이니
하는 표현은 엉터리가 많습니다. 인코딩과 문자 집합의 개념을
섞어서 사용하고 있죠.

정리하면 KS C 5601과 비슷한 것으로는 ISO 8859-1이나 US ASCII가
있고 이런 건 한글 글자 순서나 유럽어 알파벳등으로 생각하시면 
됩니다. 그냥 가 다음에 각이나 갓 등의 글자가 오고 그 한참 뒤에
나같은 글자가 온다는 정도의 내용으로 이해하시면 됩니다. US ASCII에서
a 다음에 b가 오고 그 한참 뒤에 m이나 z가 오는 것도 비슷하죠.

반면에 8bit EUC-KR이나 ISO-2022-KR, 7bit ISO-2022등은 KS C 5601에
기반한 인코딩입니다. 예를 들어, EUC-KR에서 '가'는 0xB0A1 정도의
비트스트림으로 표현됩니다. 반면에 ISO-2022-KR에서는 0x332A (물론
인코딩의 결과는 하나의 글자 앞뒤로 추가 정보가 붙을 수 있습니다)
정도의 비트스트림으로 표현될 수 있습니다. 같은 글자에 대해서 나름대로
정해진 비트 표현을 쓰는 것이 인코딩인 셈이죠.


[알림판목록 I] [알림판목록 II] [글 목록][이 전][다 음]
키 즈 는 열 린 사 람 들 의 모 임 입 니 다.