ckmarkoh / deepSeg

A deep learning Chinese Word Segmentation toolkit
46 stars 18 forks source link

deepSeg

Build Status codecov

A deep learning Chinese Word Segmentation toolkit

Installation

pip install deepseg

Usage

code example:

# -*- coding:utf-8 -*-
from deepseg import DeepSeg

doc_in = u"""
中文詞彙網路是建立在英語詞彙網路的理論架構之上所建構的計算心理詞庫。
詞彙依其同義行為聚集成「同義詞集」,
而同義詞集在依不同的語義關係彼此連接成為一個複雜的詞彙網路。
"""

ds = DeepSeg()
deep_seg_list = ds.cut(doc_in)
print("  ".join(deep_seg_list))

output:


  中文  詞彙  網路  是  建立  在  英語  詞彙  網路  的  理論  架構  之上  所  建構  的  計算  心理  詞庫  。
  詞彙  依  其  同義  行為  聚集成  「  同義詞集  」  ,
  而  同義詞集  在  依  不同  的  語義  關係  彼此  連接  成為  一  個  複雜  的  詞彙  網路  。

Run Tests

python -m unittest tests.test_deepseg.DeepsegTest
python -m unittest tests.test_deepseg_util.DeepsegUtilTest

Check PEP8

pep8 *.py --ignore=E501
pep8 tests/*.py --ignore=E501