vEduardovich / dodari

AI 영한-한영 번역기, 도다리 en-ko/ ko-en AI translator
https://moonlit.himion.com/dodari
Apache License 2.0
195 stars 19 forks source link

일본어도 추가해주실수 있을까요?? #10

Open NoteBlockMR opened 5 days ago

NoteBlockMR commented 5 days ago

게임번역할때 사람들이 일본어를 많이 찾더라구요 일본어를 추가해주셨으면 좋겠습니다

NoteBlockMR commented 5 days ago

그리고 또 문제가 있습니다 txt파일을 기존에 있는걸 읽어오면 읽어지나 다음 그 똑같은 txt파일을 읽어오면 알수없는 언어라고 인식하는데 이걸 해결해주실수 있을까요??

에러 로그는 없네요...

vEduardovich commented 5 days ago

일본어 버전은 facebook의 nllb 모델을 사용하여 만든 도다리 nllb 버전이 이미 있습니다. https://github.com/vEduardovich/dodari_nllb 다만 모델이 작은만큼 번역 품질은 좋지 않다고 하더군요

vEduardovich commented 5 days ago

그리고 또 문제가 있습니다 txt파일을 기존에 있는걸 읽어오면 읽어지나 다음 그 똑같은 txt파일을 읽어오면 알수없는 언어라고 인식하는데 이걸 해결해주실수 있을까요??

에러 로그는 없네요...

혹시 기존의 파일을 로딩하신 후 x버튼을 눌러 정확하게 제거하셨나요? 그렇지 않고 새로고침등을 하셨다면 그럴수 있습니다. UI상으로는 기존 파일이 제거된것처럼 보이지만 실제로는 메모리에 여전히 가지고 있기 때문입니다. 이건 gradio라는 ui의 문제여서 현재시스템에서 전면적인 해결은 어렵습니다.

NoteBlockMR commented 5 days ago

네 그렇게 했습니다만 1.0버젼으로 시도하면 잘되네요 근데 최신버젼으로 할때 그러는군요 ...ㅠㅠ

NoteBlockMR commented 5 days ago

그리고 저 다국어 번역기에 정규식도 넣을수 있다면 넣어주실수 있을까요??

vEduardovich commented 5 days ago

그리고 저 다국어 번역기에 정규식도 넣을수 있다면 넣어주실수 있을까요??

정규식을 어떻게 넣는걸 말씀하실까요..? 특정 정규식에 맞는 문자들만 치환하길 바라시는걸까요?

NoteBlockMR commented 5 days ago

(?:%[0-9]|\(?:[A-Z][A-Z]+|[A-Za-z][a-z]+|[A-Za-z])(?:[[0-9]+])?|\[[[0-9]+]|\[{}$.|!><^[]*]) 대충 이렇게 되어있는 정규식을 넣고싶습니다

vEduardovich commented 5 days ago

(?:%[0-9]|(?:[A-Z][A-Z]+|[A-Za-z][a-z]+|[A-Za-z])(?:[[0-9]+])?|[[[0-9]+]|[{}$.|!><^[]*]) 대충 이렇게 되어있는 정규식을 넣고싶습니다

네. 그러니까 그 정규식에 어디에 넣고 싶다는 것인지 모르겠어요

NoteBlockMR commented 5 days ago

번역된 문장에 적용하고싶습니다

NoteBlockMR commented 5 days ago

그리고 gradio를 업데이트하라고 에러가 출력됩니다 python은 3.10.6버젼을 사용했구요 gradio 4.44.1버젼을 사용하라고 에러가 출력됩니다

vEduardovich commented 5 days ago

번역된 문장에 적용하고싶습니다

아.. 번역이 완료된 문장에 사용하고 싶으신 건가요? 그건 도다리보다 vscode의 replace의 정규식을 이용하시거나 파이썬으로 간단하게 돌리시는게 어떨까요?

NoteBlockMR commented 5 days ago

그게 오리지널 문장이 정규식 투성이라서요.....이걸 돌릴수있는 방법을 모르겠구요 ㅠㅠ

vEduardovich commented 5 days ago

그리고 gradio를 업데이트하라고 에러가 출력됩니다 python은 3.10.6버젼을 사용했구요 gradio 4.44.1버젼을 사용하라고 에러가 출력됩니다

네. 그건 에러가 아니라 warning이에요. 새로운 버전이 나왔음을 알리는거지요. 하지만 gradio은 문제가 많아최신 버전을 사용하지 않습니다. 저도 다음부터는 gradio를 사용하지 않을 계획이에요

vEduardovich commented 5 days ago

그게 오리지널 문장이 정규식 투성이라서요.....이걸 돌릴수있는 방법을 모르겠구요 ㅠㅠ

번역전 오리지널 문장에 이미 정규식이 많이 포함되어 있다는 뜻일까요?

NoteBlockMR commented 5 days ago

그게 오리지널 문장이 정규식 투성이라서요.....이걸 돌릴수있는 방법을 모르겠구요 ㅠㅠ

번역전 오리지널 문장에 이미 정규식이 많이 포함되어 있다는 뜻일까요?

네 그렇습니다

NoteBlockMR commented 5 days ago

gradio를 저도 사용하진 않고싶습니다만 이게 자동으로 깔린뒤에 그뒤로부터 에러가 출력되더군요

vEduardovich commented 5 days ago

그게 오리지널 문장이 정규식 투성이라서요.....이걸 돌릴수있는 방법을 모르겠구요 ㅠㅠ

번역전 오리지널 문장에 이미 정규식이 많이 포함되어 있다는 뜻일까요?

네 그렇습니다

이해가 잘 가지 않는것이.. 그럼 번역하고자 하는 텍스트가 정규식에 관한 책인가요? 정규식은 패턴을 이용해 원하는 문자를 선택하고 자신이 원하는 문자로 바꾸는 간단한 코드인데요. 이게 원래 텍스트에 있다면 정규식 관련 책인거고 그렇다면 정규식을 직접 입력하실 필요가 없어요. 정규식은 번역되지 않고 원본 그대로 나옵니다. 번역하지 않아요

NoteBlockMR commented 5 days ago

그게 쯔꾸르 관련 게임을 번역하다보니 이 소스파일을 찾게된거라서요 도움을 받고싶어서 그럴뿐입니다 ㅠㅠ

vEduardovich commented 5 days ago

gradio를 저도 사용하진 않고싶습니다만 이게 자동으로 깔린뒤에 그뒤로부터 에러가 출력되더군요

네. 그건 error가 아니라 warning입니다. 그냥 알려주는 것 뿐이에요. 기능 사용에는 아무 문제가 없어요. 새로운 버전이 나오거나 기존의 어떤 코드가 deprecated되었을때 알려주기만 하는거에요

NoteBlockMR commented 5 days ago

gradio를 저도 사용하진 않고싶습니다만 이게 자동으로 깔린뒤에 그뒤로부터 에러가 출력되더군요

네. 그건 error가 아니라 warning입니다. 그냥 알려주는 것 뿐이에요. 기능 사용에는 아무 문제가 없어요. 새로운 버전이 나오거나 기존의 어떤 코드가 deprecated되었을때 알려주기만 하는거에요

일단 에러로그는 보내드리겠습니다

vEduardovich commented 5 days ago

그게 쯔꾸르 관련 게임을 번역하다보니 이 소스파일을 찾게된거라서요 도움을 받고싶어서 그럴뿐입니다 ㅠㅠ

제가 기존 텍스트가 어떤 상태인지 상상만으로는 이해가 가지 않아 어렵네요. 저도 도와드리고 싶어요

NoteBlockMR commented 5 days ago

%&%C[32]Stamina:%&%C[0] -%&%v[16] 정규식으로 된 언어는 이렇게 적혀있습니다만 여기서 정규식을 적용해서 좀 번역되지 않도록 수정하고싶습니다

vEduardovich commented 5 days ago

%&%C[32]Stamina:%&%C[0] -%&%v[16] 정규식으로 된 언어는 이렇게 적혀있습니다만 여기서 정규식을 적용해서 좀 번역되지 않도록 수정하고싶습니다

아. 저 문자들이 그냥 text로 되어 있는 파일인가요?

NoteBlockMR commented 5 days ago

%&%C[32]Stamina:%&%C[0] -%&%v[16] 정규식으로 된 언어는 이렇게 적혀있습니다만 여기서 정규식을 적용해서 좀 번역되지 않도록 수정하고싶습니다

아. 저 문자들이 그냥 text로 되어 있는 파일인가요?

네 그렇습니다 {asokfhna} 예로들어 이렇게 된 정규식이 종종 있는데 이거까지 번역을 시켜버려서요....

NoteBlockMR commented 5 days ago

error1.txt 그리고 에러 로그 입니다

vEduardovich commented 5 days ago

error1.txt 그리고 에러 로그 입니다

지금 사용하고 계신 gradio 버전은 4.44.1이 아닌 4.14.0이에요. 그래서 문제가 발생하고 있습니다. 이미 같은 문제에 대한 해결을 https://github.com/vEduardovich/dodari/issues/9 위 이슈에서 해결하였습니다. gradio의 버전을 4.44.1로 업데이트 하시면 해결할수 있습니다. 방법은 위 링크를 확인해주세요.

NoteBlockMR commented 5 days ago

Traceback (most recent call last): File "D:\ATXTTranslator\dodari_nllb\dodari.py", line 202, in dodari.main() File "D:\ATXTTranslator\dodari_nllb\dodari.py", line 49, in main input_window = gr.File(file_count="files", label='파일들') File "D:\ATXTTranslator\dodari_nllb\venv\lib\site-packages\gradio\component_meta.py", line 167, in wrapper return fn(self, **kwargs) File "D:\ATXTTranslator\dodari_nllb\venv\lib\site-packages\gradio\components\file.py", line 81, in init raise ValueError( ValueError: Parameter file_count must be one of them: ['single', 'multiple', 'directory'] 라는 에러가 발생합니다

vEduardovich commented 5 days ago

%&%C[32]Stamina:%&%C[0] -%&%v[16] 정규식으로 된 언어는 이렇게 적혀있습니다만 여기서 정규식을 적용해서 좀 번역되지 않도록 수정하고싶습니다

아. 저 문자들이 그냥 text로 되어 있는 파일인가요?

네 그렇습니다 {asokfhna} 예로들어 이렇게 된 정규식이 종종 있는데 이거까지 번역을 시켜버려서요....

이게 좀 어렵습니다. html이나 epub처럼 구조화 되어 있는 경우 정규식은 따로 표기가 되어 있기에 번역을 하지 않지만 일반 텍스트로 되어 있다면 이게 정규식인지 아닌지 구별을 먼저 해야 하는데 어디까지가 정규식인지 그 범위를 결정하기도 어렵고 그렇게 특수한 상황을 위해 매번 그것을 확인한다는 것도 필요없는 개발비용이 추가됩니다. 정규식뿐아니라 html이나 그외 특수한 모든 경우까지 감안해야하기 때문이지요. 이건 좀 어려울것 같네요.

vEduardovich commented 5 days ago

Traceback (most recent call last): File "D:\ATXTTranslator\dodari_nllb\dodari.py", line 202, in dodari.main() File "D:\ATXTTranslator\dodari_nllb\dodari.py", line 49, in main input_window = gr.File(file_count="files", label='파일들') File "D:\ATXTTranslator\dodari_nllb\venv\lib\site-packages\gradio\component_meta.py", line 167, in wrapper return fn(self, kwargs) File "D:\ATXTTranslator\dodari_nllb\venv\lib\site-packages\gradio\components\file.py", line 81, in init** raise ValueError( ValueError: Parameter file_count must be one of them: ['single', 'multiple', 'directory'] 라는 에러가 발생합니다

네 그것또한 https://github.com/vEduardovich/dodari/issues/9 위 링크를 보시면 해결하실수 있습니다

NoteBlockMR commented 5 days ago

개발비용이 필요하다면 제가 제공은 해드릴순있습니다만 그 개발비용이 얼마정도 드는지 알수있을까요??

vEduardovich commented 5 days ago

개발비용이 필요하다면 제가 제공은 해드릴순있습니다만 그 개발비용이 얼마정도 드는지 알수있을까요??

일단 문서 전체를 제가 확인해 봐야 알수있습니다. 일반 plain 텍스트의 경우 오리지널 파일의 구조가 엉망이어서 아예 손도 댈수 없을때도 있습니다. 결국 노가다가 해결책이 될수도 있죠.

NoteBlockMR commented 5 days ago

(?:%[0-9]|\(?:[A-Z][A-Z]+|[A-Za-z][a-z]+|[A-Za-z])(?:[[0-9]+])?|\[[[0-9]+]|\[{}$.|!><^[]*]) 이 정규식이 대부분 게임에 해당됩니다만 저것만 추가할순 없는건가요??

vEduardovich commented 5 days ago

(?:%[0-9]|(?:[A-Z][A-Z]+|[A-Za-z][a-z]+|[A-Za-z])(?:[[0-9]+])?|[[[0-9]+]|[{}$.|!><^[]*]) 이 정규식이 대부분 게임에 해당됩니다만 저것만 추가할순 없는건가요??

네. 그렇게는 알수가 없습니다. 실제 문서를 봐야만 알수있습니다. 아마 말씀하신것만 예외처리한다해도 또 다른 문제가 100% 터져나올거에요

vEduardovich commented 5 days ago

그리고 위 정규식만 있다면 도다리를 사용하는것보다 그냥 오리지널 문서를 vscode로 정규식 치환을 먼저하신후 번역하시고 다시 정규식 치환해서 돌려놓으시는게 훨씬 수고가 덜 들어갑니다

NoteBlockMR commented 5 days ago

그리고 마지막질문이있습니다 번역속도를 더 높이고싶습니다 해결방법이 있을까요?? GPU를 사용합니다만 거기서 4분의 1도 사용하지 않더군요 한영 번역기로 사용하고싶습니다

vEduardovich commented 5 days ago

그리고 마지막질문이있습니다 번역속도를 더 높이고싶습니다 해결방법이 있을까요?? GPU를 사용합니다만 거기서 4분의 1도 사용하지 않더군요 한영 번역기로 사용하고싶습니다

그건 언어모델이 작은거라서 그렇습니다. gpu를 모두 활용하는 고급번역은 도다리 유료서비스로 제가 직접 번역해 드리고 있습니다

vEduardovich commented 5 days ago

처음에는 도다리 고급번역 코드도 공유하려 하였으나,

  1. pc환경이 고급 gpu여야 하고 윈도우나 맥이 아닌 리눅스 os여야합니다.
  2. 개발에 대한 어느정도 수준의 지식을 가지고 계셔야 합니다.
  3. 각종 문제 상황에 대응할수 있는 디버깅 지식이 있어야 합니다.

위와 같은 이유로 제가 직접 번역해 드리는 것으로 선회하였습니다.

NoteBlockMR commented 5 days ago

처음에는 도다리 고급번역 코드도 공유하려 하였으나,

  1. pc환경이 고급 gpu여야 하고 윈도우나 맥이 아닌 리눅스 os여야합니다.
  2. 개발에 대한 어느정도 수준의 지식을 가지고 계셔야 합니다.
  3. 각종 문제 상황에 대응할수 있는 디버깅 지식이 있어야 합니다.

위와 같은 이유로 제가 직접 번역해 드리는 것으로 선회하였습니다.

1번하고 3번은 제가 이해도가 있어서 할줄은 압니다만 2번부분에 살짝 걸리네요 ㅠㅠ 1번부분은 wsl가 깔려있기에 상관이 있을진 모르겠습니다만