deepwel / Chinese-Annotator

Annotator for Chinese Text Corpus (UNDER DEVELOPMENT) 中文文本标注工具
Apache License 2.0
1.46k stars 329 forks source link

[20171128] 当前进展和关于接下来工作的思考 #25

Open crownpku opened 6 years ago

crownpku commented 6 years ago

webui + database

前端界面和数据库都还在开发中,重点是要写好API和相应文档以便未来后端算法模块的接入,下一步希望能尽快出一个能看到界面的demo~

task_center + user_instance

当前已经搭建好一个最简单的offline training的pipeline。

下一步既然我们已经有spam email的数据和label,在前端完成之前,需要模拟用户 “拿到confidence最低的一批数据” -> "续标数据(其实就是从数据里把该部分的label拿出来)" -> "重新训练给出confidence ranking"这样一个过程,完成一个模拟的online training & inference pipeline的test case。未来就可以方便接入前端与数据库的部分。

另外一个,就是要注意把具体任务(如spam email classification)的所有配置文件(.config),文本数据(.sqlite/mongodb),模型数据(tensorflow/sklearn/jieba词库)乃至状态数据全都实例化单独放在同一个user_instance下面的位置。我们的目标是,用户换一台电脑装好我们的软件,把user_instance中相应任务的数据包拷贝过去,就能在尽可能简单地配置完成后接着进行之前的工作。

algo_factory

当前已经完成了符合pipline框架格式的基于component和message的 char_tokenizer, sentence_embedding_extractorsklean_classifier模块,可以接起来实现一个offline training的过程。

下一步,即是要实现与用户标注数据交互的一个过程,即新标注数据进来的re-train(暂时实现是所有已标注数据的全量训练,即伪active learning)以及未标注数据inference之后的confidence ranking功能,返回确信度最低的几条数据。每个功能要写unit test。

另外,要实验这样的SVM全量训练在数据多了之后,是否能给到用户active learning级别的反馈速度。如果不够快的话,就要考虑加入online batch learning来代替每次全量数据集的训练,实现真正的active learning过程;这一块挑战多多。

暂时想到这么多,欢迎大家讨论呀!

JiaLei123 commented 6 years ago

我在作与API交互的页面,可以使用chrome浏览器打开webui/static/web_util.html 查看

hanpum commented 6 years ago

现在这个系统进展如何?好像还跑不起来? 有什么开发计划吗