클라이언트에서 Encoding.UTF8.GetBytes(str) 이와같은 형태로 Byte를 얻어 c++ 서버로 보내는 형식을 취했었는데
유니티에서 UTF8 로 Encoding시 "안녕" 이라는 문자열이 6개의 바이트로 표현되는 것으로 나타났다.
즉 한글 한 문자당 3바이트를 차지한다는 것이다. (지금까지 2바이트로 알고 있었는데 말이죠..)
찾아보니
(1) 보통의 한국어 텍스트 문서:이것은 아스키 문서이며 유니코드가 아닙니다. 영문/숫자/기호는 1바이트. 한글과 한자는 2바이트로 표현됩니다. euc-kr 또는 ksc_c_5601-1987 로 불리는 인코딩이며 웹페이지 작성에 사용할 수 있습니다. 특수한 외국어 문자나 일본식/중국식 한자는 표현할 수 없습니다.
다음의 2개가 유니코드입니다:
(2) 일반 유니코드(Unicode):모든 글자를 2바이트로 표현합니다. 전세계 모든 글자들을 한꺼번에 표현할 수 있습니다.인터넷에 HTML 파일로 올릴 수 없습니다. 즉 웹페이지 작성에 쓸 수 없습니다.
(3) UTF-8 유니코드:영문/숫자/기호는 1바이트로, 한글과 한자 등은 3바이트로 표현합니다. 전세계 모든 글자들을 한꺼번에 표현할 수 있습니다. 웹페이지 작성에 쓸 수 있습니다. (저의 mwultong.blogspot.com 이 블로그도 UTF-8 로 되어 있습니다)