i3thuan5 / KeSi

Tâi-bûn NLP ke-si.
MIT License
5 stars 3 forks source link

KeSi

PyPI version Build Status Quality Gate Status

Tâi-bûn NLP ke-si.

Tàu

pip install KeSi

Iōng

Ku, TuiBeTse, normalize_taibun, kam_haphuat, PIAUTIAM

Ku

分析台文,而且做書寫轉換。

class Ku(hanlo=None, lomaji=None)

建立台文ê句,做相關操作。 hanlo是主要ê台文,ē-tàng傳漢羅、全漢、全羅攏會用得。若台文有全羅對照,ē-tàng傳lomaji變數,kui-ê句會照lomaji來斷詞、標輕聲。若是hanlo kah lomaji字數bô-kâng,會傳TuiBeTse例外。

hanji

得tio̍h tshiâu過ê台文,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞攏有輕聲符。

lomaji

得tio̍h tshiâu過ê羅馬字,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞攏有輕聲符。

kiphanlo

得tio̍h tshiâu過ê台文,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞頭字是漢字,袂有輕聲符。

KIP(), TL()

換做正式教育部羅馬字。

KIP數字調轉KIP:

>>> from kesi import Ku
>>> Ku("Gâu5-tsa2").KIP().hanlo
'Gâu-tsá'

POJ轉KIP:

>>> from kesi import Ku
>>> Ku("Gâu-chá").KIP().hanlo
'Gâu-tsá'

漢字、連字符、輕聲符lóng會好好留落來。

>>> from kesi import Ku
>>> Ku("看--起-來chiâⁿ媠。").KIP().hanlo
'看--起-來tsiânn媠。'

修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。

POJ()

換做白話字。

KIP轉POJ:

>>> from kesi import Ku
>>> Ku("Gâu-tsá").POJ().hanlo
'Gâu-chá'

漢字、連字符、輕聲符lóng會好好留落來。

>>> from kesi import Ku
>>> Ku("看--起-來tsiânn媠。").POJ().hanlo
'看--起-來chiâⁿ媠。'

POJ數字調轉POJ:

>>> from kesi import Ku
>>> Ku("Gâu5-cha2").POJ().hanlo
'Gâu-chá'

iter()

回傳句內下底全部Suêiter

len()

回傳句內下底有幾ê Su

thianji()

回傳句內下底全部Jiêiter

class Su

hanji

得tio̍h tshiâu過ê台文。其中若輕聲詞攏有輕聲符。

lomaji

得tio̍h tshiâu過ê羅馬字。其中若輕聲詞攏有輕聲符。

kiphanlo

得tio̍h tshiâu過ê台文。其中若輕聲詞頭字是漢字,袂有輕聲符。

KIP(), TL()

換做正式教育部羅馬字。

修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。

POJ()

換做白話字。

iter()

回傳句內下底全部Jiêiter

len()

回傳句內下底有幾ê Ji

class Ji

hanji

得tio̍h tshiâu過ê台文。其中若輕聲詞攏有輕聲符。

lomaji

得tio̍h tshiâu過ê羅馬字。其中若輕聲詞攏有輕聲符。

kiphanlo

得tio̍h tshiâu過ê台文。其中若輕聲詞頭字是漢字,袂有輕聲符。

KIP(), TL()

換做正式教育部羅馬字。

修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。

POJ()

換做白話字。

class TuiBeTse

Ku(hanlo, lomaji)hanlo kah lomaji字數bô-kâng ê時,回傳ê例外。

def normalize_taibun(taibun)

有tshiâu Unicode NFC、教育部造字碼換做正式Unicode碼。

>>> from kesi import normalize_taibun
>>> normalize_taibun('a\u0301') == '\u00e1'
True
>>> normalize_taibun('\u00e1') == '\u00e1'
True

def kam_haphuat(tsit_ji_lomaji)

判斷tsit_ji_lomaji敢是合法教育部羅馬字抑是白話字。若是數字調、調符、教育部傳統版,攏會當做合法。

>>> from kesi import kam_haphuat
>>> kam_haphuat('tsiânn')
True
>>> kam_haphuat('tsiann5')
True
>>> kam_haphuat('chiâⁿ')
True
>>> kam_haphuat('tsiâⁿ')
True

PIAUTIAM

含半型、全型標點符號ê set()

其他

算字數

$ echo '我是Tâi-gí ê ke-si' | python le/sng_jisoo.py
# 字數= 7

Khai-huat

tox -e behave