한자사전 hanja.txt에서 잘못된 항목

GoogleCodeExporter commented 8 years ago

글:契:부족 이름 글, 계약할 글

한자가 '계'로 잘못 등록되어 있습니다.
따라서 한자를 한글로 변환하면 '계'자로 나옵니다.

Original issue reported on code.google.com by johns...@dreamwiz.com on 24 Feb 2015 at 2:03

GoogleCodeExporter commented 8 years ago

契는 계로도 글로도 읽을 수 있습니다.
따라서 두곳에 등록되어 있어야 합니다.
http://dic.daum.net/word/view.do?wordid=hhw000001628&q=%E5%A5%91
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=%E5%A5%91

같은 이슈에 대해서 다른 이슈를 등록하지 않았으면 합니다.
닫은 이슈도 수정해서 글을 쓰실 수 있습니다.

Original comment by choe.hwanjin@gmail.com on 24 Feb 2015 at 2:18

GoogleCodeExporter commented 8 years ago

답변 감사합니다.
제가 잘못 인용했습니다.
nabi-hanja.txt에서 가져 왔습니다.
[글]
契=부족 이름 글
契=부족 이름 글

한자 모양은 같으나 유니코드 값이 다릅니다.
첫 번째는 음가가 '계'이고 두 번째는 음가가 '글'입니다.
첫 번째는 유니코드 포인트가 0x5951' 두 번째는 0xf909'입니다.

따라서 첫 번째 항목을 [계] 인덱스로 이동해야 합니다.
"글" 음가는 엄청나게 중요합니다.
그리다 그리움 끌 등등 우리 음가가 반영되어 있습니다.

Original comment by johns...@dreamwiz.com on 24 Feb 2015 at 9:08

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

날라간거로 생각하고 다시 입력함.

제대로 인용했습니다.

글:契:부족 이름 글, 계약할 글

유니코드 음가가 글입니다.

어쨌거나 '글' 항목으로 입력했는데 '계'로 나오는 건 
잘못입니다.
글이든 계이든 입력한 그대로 나와야 합니다.

Original comment by johns...@dreamwiz.com on 24 Feb 2015 at 9:22

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

유일하게 한 개
U+F909  kDefinition deed, contract, bond; engrave
U+F909  kHangul 글
U+F909  kKorean KUL

Original comment by johns...@dreamwiz.com on 24 Feb 2015 at 11:15

GoogleCodeExporter commented 8 years ago

오래된 논의 끝에 호환한자 영역은 사용하지 않기로 
결정했습니다.
유니코드에서는 통합한자를 사용할 것을 추천하고 
있습니다.
그리고 호환한자 영역이 모든 한자의 다른 음을 가지고 
있지도 않습니다.
호환한자를 지원한다고 하더라도 표현가능한 음이 
여러개인 한자는 제한적입니다.
그러므로 호환한자를 사용하더라도 기계적으로 한자->한글 
변환은 안됩니다.

Original comment by choe.hwanjin@gmail.com on 24 Feb 2015 at 3:13

GoogleCodeExporter commented 8 years ago

기계적으로 한자를 한글로 변환해 달라는 뜻이 아닙니다.
제가 쓴 글이 다 지워졌으므로 이미 님의 뜻은 알고 
있습니다.
유니코드 세상이 되어서 형편이 좀 나아진 줄 알았습니다.

'글'을 입력했으면 '글'을 돌려 주어야 합니다.
실제로 hanja.txt에 글과 계는 코드가 다르게 등록되어 
있습니다.
그것도 [글] 항목에 쌍으로 등록되어 있습니다.
첫 번째 항목만 지우면 '맺을 계'로도 '맺을 글'로도 따로 
입력할 수가 있습니다.
당연히 역변환도 자연스럽습니다.

MS 라이브러리에 한자한글 변환 루틴이 있길래 
시험중입니다.

Original comment by johns...@dreamwiz.com on 25 Feb 2015 at 12:24

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

말씀하시는 내용을 보면 libhangul의 hanja.txt 데이터 파일에 
대한 것이 아닌것 같습니다.
hanja.txt 파일에는 아래와 같이
...
계:契:맺을 계, 계약할 계
...
글:契:부족 이름 글, 계약할 글
...

두 항목이 등록되어 있고, 두 항목 모두 같은 유니코드 
U+5951로 입력되어 있습니다.
둘 중에 한 항목을 지워야 제대로 입력가능하다는 것은 
이해가 가지 않습니다.

아마도 다른 파일을 참고하여 말씀하시는 것 같습니다.

Original comment by choe.hwanjin@gmail.com on 26 Feb 2015 at 4:46

GoogleCodeExporter commented 8 years ago

죄송합니다 글이 자꾸 지워져서 저도 헷갈렸습니다.
nabi.txt에 [글] 항목에 契와 契이 순서대로 들어 있습니다.
그렇다면 왜 구지 두 번째 글(u+f909)이 있는데 첫 번째 
계(u+5951)로 받느냐는 것입니다.
첫 번째 계를 지워야 합니다.

hanja.txt에는 둘 다 말씀하신대로 u+5951로 등록되어 있습니다.
이제는 글(u+f909)로 등록할 기회도 없습니다.
이 번에는 두 번째 계u+5951을 글u+f909로 바꾸어야 합니다.

다시 말해서 hanja.txt의 모든 표제 항목을 각각 상응하는 
발음의 호환한자로 최대한 교체해야
합니다. 

죄송합니다. 저는 왜 대표한자를 고집해야 하는지 이해를 
못하겠습니다.

일본어 수준의 사전과 인공지능을 갖추면 한자를 한글로 
바꾸는거 100% 가능합니다.
사람이 자전 찾거나 물어 보면서 발음하는 것보다야 
컴퓨터가 훨씬 잘하지 않을까요.

韓契萬世 樂山樂水 가 windows에서 처럼 한글만세 요산요수로 
나오기를 간절히 바랍니다.

Original comment by johns...@dreamwiz.com on 26 Feb 2015 at 9:42

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

지워져서 재포스팅합니다.

죄송합니다 글이 자꾸 지워져서 저도 헷갈렸습니다.
nabi.txt에 [글] 항목에 契와 契이 순서대로 들어 있습니다.
그렇다면 왜 구지 두 번째 글(u+f909)이 있는데 첫 번째 
계(u+5951)로 받느냐는 것입니다.
첫 번째 계를 지워야 합니다.

hanja.txt에는 둘 다 말씀하신대로 u+5951로 등록되어 있습니다.
이제는 글(u+f909)로 등록할 기회도 없습니다.
이 번에는 두 번째 계u+5951을 글u+f909로 바꾸어야 합니다.

다시 말해서 hanja.txt의 모든 표제 항목을 각각 상응하는 
발음의 호환한자로 최대한 교체해야
합니다. 

죄송합니다. 저는 왜 대표한자를 고집해야 하는지 이해를 
못하겠습니다.

일본어 수준의 사전과 인공지능을 갖추면 한자를 한글로 
바꾸는거 100% 가능합니다.
사람이 자전 찾거나 물어 보면서 발음하는 것보다야 
컴퓨터가 훨씬 잘하지 않을까요.

韓契萬世 樂山樂水 가 windows에서 처럼 한글만세 요산요수로 
나오기를 간절히 바랍니다.

Original comment by johns...@dreamwiz.com on 26 Feb 2015 at 11:19

GoogleCodeExporter commented 8 years ago

중국인은 한자를 음성으로 변환하지 못합니까?
유니코드가 추천하는 통합한자는 중국 전용입니까?
리눅스 월드에서 한자 입력은 절대 불가합니다.
호환한자를 사용해야 나중에 올바르게 컴퓨터로 읽을 수 
있습니다.
마이크로소프트가 정말 위대하다고 생각합니다.
코드는 유니코드를 따르되 유니코드 음가가 아니라 음가는 
정확하게 우리 옥편의 음가를
반영했습니다. 놀랍습니다. 
뭐 잘은 모르지만 대략 1500여개나 유니코드 음가와 
다르네요.

1대일 변환이 안되는 것은 유니코드가 잘못되어 있기 
때문입니다.
시덥지 않은 이모지도 넎고 있는 판에 우리한테는 
통합한자를 쓰라니 말이 안됩니다.

유니코드 정규화는 어플리케이션에서 할 일이지 IME에서 할 
일은 전혀 아닙니다.
IME는 사용자의 의도를 어플에 있는 그대로 넘겨주어야 하고,
통합한자로 정규화할지 말지는 어플에 맡겨야 합니다.

libhangul은 리눅스 월드에서 거의 유일한 한글한자 
라이브러리인데 쓸 수가 없습니다.
한자에서 한글로 변환해서는 안되도록 만들어져 있습니다.
어떻게 이런 상태가 계속 지속되고 있을까요?

중국인은 통합한자를 사용해도 아무 문제 없이 컴퓨터로 
읽을 수 있기 때문이
아닐까요?

Original comment by johns...@dreamwiz.com on 19 Mar 2015 at 12:08

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

[deleted comment]

GoogleCodeExporter commented 8 years ago

오케이..
중국어 IME도 통합한자만 받아들입니까?

Original comment by johns...@dreamwiz.com on 19 Mar 2015 at 12:13

GoogleCodeExporter commented 8 years ago

제가 이야기하고자 하는 바는 호환한자를 사용한다고 
하더라도
입력자의 의도를 모두 표현하지 못한다는 것입니다.

말씀하신 契도 실은 4가지 계, 결, 글, 설 음가가 필요합니다.
그러나 호환한자는 이 4가지 코드를 모두 가지고 있지 
않습니다.
어차피 호환한자를 가지고 말씀하시는 기능을 달성할 수 
없습니다.
호환한자는 한국어를 위한 영역이 U+F900-U+FA0B으로 할당되어 
있는데
이 268가지 경우만 예외 처리하는 것이 별로 좋은 선택이 
아니라고 생각합니다.

그리고 애초에 호환 한자의 용도는 round-trip compatibility를 
위한 것입니다.

스스로 "Delete Comment"를 누르고 있지는 않은지 확인해보시기 
바랍니다.

Original comment by choe.hwanjin@gmail.com on 19 Mar 2015 at 1:12

GoogleCodeExporter commented 8 years ago

결과 설도 유니코드에 등록해야 합니다.
유니코드 음가가 절대적인 것은 아닙니다.
오류가 있으면 정정할 수 있습니다.
IME는 변환을 염두에 둘 필요가 없습니다.
사용자의 입력을 있는 그대로 어플에 전달하기만 하면 
됩니다.
유니코드 정규화는 어플의 몫이지 IME가 할 일이 아닙니다.

Original comment by johns...@dreamwiz.com on 19 Mar 2015 at 2:38

GoogleCodeExporter commented 8 years ago

절대로 delete comment 누르지 않음

Original comment by johns...@dreamwiz.com on 19 Mar 2015 at 2:38

GoogleCodeExporter commented 8 years ago

다 지워지는군요... 그래도 꿋꿋이...
마이크로소프트사의 정책이 옳습니다.
libhangul로 학술 활동은 절대 안됩니다.
후손들에게 엉터리 한자를 남겨주게 됩니다.

Original comment by johns...@dreamwiz.com on 19 Mar 2015 at 2:43

GoogleCodeExporter commented 8 years ago

한자를 한글로 바꿀 수 없다고 생각하시면 아예 한자 입력 
기능을 제거하세요.
우리의 완성형 코드에서조차 '악락요'가 다르게 등록되어 
있습니다.
그 의도에 계승하여 "계글설결" 모두 유니코드에 등록할 
생각을 하는게 옳은 방향입니다.

Original comment by johns...@dreamwiz.com on 19 Mar 2015 at 2:49

GoogleCodeExporter commented 8 years ago

제 요청은 제발 그냥 사용자의 입력 그대로 어플에 전달해 
달라는 것입니다.
'설결'은 한자가 없으니 계나 글 항목에서 입력을 받아도 
죄가 안되지만,
'글'은 유니코드가 배당되어 있음에도 불구하고 '계'로 받는 
건 
역사와 문화에 대한 죄입니다.
'글' 음가는 우리의 조상이 물려주신 엄청나게 중요한 
음입니다.

Original comment by johns...@dreamwiz.com on 19 Mar 2015 at 2:57

GoogleCodeExporter commented 8 years ago

님 여기서는 더 이상 글을 못 쓰겠습니다.
진짜 너무 많이 지워집니다.

Original comment by johns...@dreamwiz.com on 19 Mar 2015 at 2:58

GoogleCodeExporter commented 8 years ago

아 정말 아무리 생각해도 답답하다. 
hanja.txt 바꿔야 하는데 .... 바꾸야 해...
유니코드도 더 등록해야 하고... 아... 답답해...

Original comment by johns...@dreamwiz.com on 23 Apr 2015 at 12:53

GoogleCodeExporter commented 8 years ago

libhangul에 variation selector 지원을 넣을 계획은 혹시 
없으신지요.

http://unicode.org/Public/UCD/latest/ucd/StandardizedVariants.txt
여기에 보면

5951 FE00; CJK COMPATIBILITY IDEOGRAPH-F909;
이런 항목이 있습니다.

유니코드에서 이런 기준을 마련한 이유는 유니코드 정규화 
과정에서 euc-kr 한자 독음 정보가 유실될 수 있기 
때문입니다.

그렇다면 사용자가 한글 "글"로부터 한자 U+5951을 
선택했다면 libhangul이 U+5951 U+FE00을 출력해주는 게 
무의미하지 않을 거 같습니다.

다만 다른 어플리케이션이나 다른 입력기들이 얼마나 
variation selector를 지원해주느냐, 즉 어플리케이션 생태계의 
문제가 구현을 망설이게 하는 한 가지 요인일 수 있겠네요.

Original comment by nomosno...@gmail.com on 5 Jun 2015 at 3:03

GoogleCodeExporter commented 8 years ago

검색을 위해 잠시 임시로 유니코드 정규화를 하는 거지...
그걸 파일로 저장해 버리면 혼란의 온상이 된다.

hanja.txt가 바로 유니코드 정규화를 거친 파일로서 
리눅스계의 한자 세계를 혼란으로 몰아 넣고 있다. 
리눅스에서는 차라리 한자를 쓰지 않는 것이 좋다.

Original comment by johns...@dreamwiz.com on 5 Jun 2015 at 5:22

hjyreach / libhangul

한자사전 hanja.txt에서 잘못된 항목 #15