shenshen-hungry / Ancient-Chinese-Segmentation

A tool for ancient Chinese segmentation.
53 stars 7 forks source link

Open WebAPI needed #1

Open KoichiYasuoka opened 5 years ago

KoichiYasuoka commented 5 years ago

Hi, my collegues and I have released UD-Kanbun, a python-based tokenizer, POS-tagger, and dependency-parser for classical Chinese texts. And now we are investigating sentence-segmentator. I compared UDPipe (with our UD_Classical_Chinese-Kyoto via option --tokenizer=joint_with_parsing), 甲言 CRFSentencizer and 古詩文斷句, and I got feeling that 古詩文斷句 is the best among them. For more precise estimation I tried to use 古詩文斷句 via curl but in vain, and got the message:

如需大量使用請聯繫管理員:[snip]@mail.bnu.edu.cn

Well, @shenshen-hungry do you have plan to open WebAPI of 古詩文斷句? Or do you have plan to release the NLP-model for sentence segmentation of classical Chinese texts? Thank you very much in advance for your cooperation.

shenshen-hungry commented 5 years ago

Since the project is based on Deep Learning which consumes a lot of hardware resources (it is very expensive to rent a GPU server), API and other heavy computation can not be supported in the online version.

sgalal commented 4 years ago

@shenshen-hungry Is there a plan to release the NLP-model for sentence segmentation of classical Chinese texts?

shenshen-hungry commented 4 years ago

@sgalal The model which is used online now is a developing version. We are working on a new version. Thus, there is no available version to release at this moment.

liuye1992 commented 4 years ago

今までは一番良いソフトウェアですが、いくつかの問題もありますね。 今回は入力テキストが洪武四年に日明関係における『大明実録』の太祖実録の一部です。 以下の写真は入力される本文: 1

以下はソフトウェア句点付与されました結果: 2

「 而詔旨有責 〇 讓其不臣中國 〇 語王曰」この文は2つの分断点が少しおかしいです、一つ目の丸は消えるはずです。2つ目の丸は「語」と「 王」の真ん中に置くはずです。本文が「 而詔旨有責讓其不臣中國語〇王曰」になってそれは正しい分断です。「王曰」は「王が曰く」という意味です。「語王曰」の意味は「(誰)が王と話す」ということです。ただし、「語王曰」の場合は前の文の意味に合えません。

「 王曰 〇 吾國雖夷 〇 僻在扶桑 」この文もおかしいです。後の丸は消えるはずです。「 夷 」は形容詞じゃなくて名詞です。「夷僻」は形容詞です。本文が「 王曰 〇 吾國雖夷僻在扶桑」になってそれは正しい分断です。意味は王が「我が国は荒れ果て扶桑にいるんですが・・・」と曰いた。

「我先王曰我夷 〇 彼亦夷也」これもおかしいです。普通の場合は「曰」の後には必ず分断点が付けられるはずです。本文が「 我先王曰〇 我夷 〇 彼亦夷也」になってそれは正しい分断です。意味は前の吾王が「我々が夷ですが、彼らも夷です」と曰いた。

最後はこの文:「非蒙古使者後爾 〇 若悖逆 〇 不吾信」。正しい分断が「非蒙古使者後〇爾若悖逆 不吾信」。意味は我は蒙古の使者の後継者じゃなくてもし君が荒々しく狂って我を信じなっかたら・・・

合わせてエリアは六つがあります。分断点が合計49個。実は正确率が87%くらいです。

liuye1992 commented 4 years ago

看来你们造的系统更适合诗歌宋词骈文楚辞之类的文学类文献。:) 《太祖实录》这种明朝接近近代汉语风格的文本,我本以为句读正确率至少该在98%以上才对。不过还是很有帮助哈。 来自一个对古代历史感兴趣的海外华人的感谢。

oscarsun72 commented 4 years ago

今までは一番良いソフトウェアですが、いくつかの問題もありますね。 今回は入力テキストが洪武四年に日明関係における『大明実録』の太祖実録の一部です。 以下の写真は入力される本文: 1

以下はソフトウェア句点付与されました結果: 2

「 而詔旨有責 〇 讓其不臣中國 〇 語王曰」この文は2つの分断点が少しおかしいです、一つ目の丸は消えるはずです。2つ目の丸は「語」と「 王」の真ん中に置くはずです。本文が「 而詔旨有責讓其不臣中國語〇王曰」になってそれは正しい分断です。「王曰」は「王が曰く」という意味です。「語王曰」の意味は「(誰)が王と話す」ということです。ただし、「語王曰」の場合は前の文の意味に合えません。

「 王曰 〇 吾國雖夷 〇 僻在扶桑 」この文もおかしいです。後の丸は消えるはずです。「 夷 」は形容詞じゃなくて名詞です。「夷僻」は形容詞です。本文が「 王曰 〇 吾國雖夷僻在扶桑」になってそれは正しい分断です。意味は王が「我が国は荒れ果て扶桑にいるんですが・・・」と曰いた。

「我先王曰我夷 〇 彼亦夷也」これもおかしいです。普通の場合は「曰」の後には必ず分断点が付けられるはずです。本文が「 我先王曰〇 我夷 〇 彼亦夷也」になってそれは正しい分断です。意味は前の吾王が「我々が夷ですが、彼らも夷です」と曰いた。

最後はこの文:「非蒙古使者後爾 〇 若悖逆 〇 不吾信」。正しい分断が「非蒙古使者後〇爾若悖逆 不吾信」。意味は我は蒙古の使者の後継者じゃなくてもし君が荒々しく狂って我を信じなっかたら・・・

合わせてエリアは六つがあります。分断点が合計49個。実は正确率が87%くらいです。

如是斷句真是amazing了。人工智慧,真不容小覷也。感恩感恩 讚歎讚歎 南無阿彌陀佛 「之雲仍乎」?「之云仍乎」?該不會又是簡化字來亂的吧。唉。愈簡愈繁,悔之無及。南無阿彌陀佛

shenshen-hungry commented 4 years ago

@liuye1992 我们这个系统目前的准确率是古文90%以上,诗词95%以上,并且都是在大规模的数据上统计的,对于每一条文本来说可能会有波动,还请您多试一些。 另外,《太祖实录》这种明朝接近近代汉语风格的文本之所以准确率没有到达98%是因为对于普通人来说可能也很难达到98%,即使让普通人来断现代汉语可能也不一定都能断正确。