liyongsea / parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project
Apache License 2.0
8 stars 5 forks source link

add: OfflineGptDetector #23

Closed voidf closed 1 year ago

voidf commented 1 year ago

为了利用gpt的分段数据,新增了一个detector的record_id参数

引入record_id是为了利用已经整合好的gpt分段数据,否则要么写暴力要么把离线detector改成在线

这个方法我不太建议写成能够在线请求的,否则会引入大量异常处理使得text_segmenter.py变得臃肿

另:.gitignore加了个.vscode/,不合适的话可以干掉