[20171128] 当前进展和关于接下来工作的思考

crownpku commented 6 years ago

webui + database

前端界面和数据库都还在开发中，重点是要写好API和相应文档以便未来后端算法模块的接入，下一步希望能尽快出一个能看到界面的demo~

task_center + user_instance

当前已经搭建好一个最简单的offline training的pipeline。

下一步既然我们已经有spam email的数据和label，在前端完成之前，需要模拟用户 “拿到confidence最低的一批数据” -> "续标数据（其实就是从数据里把该部分的label拿出来）" -> "重新训练给出confidence ranking"这样一个过程，完成一个模拟的online training & inference pipeline的test case。未来就可以方便接入前端与数据库的部分。

另外一个，就是要注意把具体任务(如spam email classification)的所有配置文件(.config)，文本数据(.sqlite/mongodb)，模型数据(tensorflow/sklearn/jieba词库)乃至状态数据全都实例化单独放在同一个user_instance下面的位置。我们的目标是，用户换一台电脑装好我们的软件，把user_instance中相应任务的数据包拷贝过去，就能在尽可能简单地配置完成后接着进行之前的工作。

algo_factory

当前已经完成了符合pipline框架格式的基于component和message的 char_tokenizer, sentence_embedding_extractor和 sklean_classifier模块，可以接起来实现一个offline training的过程。

下一步，即是要实现与用户标注数据交互的一个过程，即新标注数据进来的re-train（暂时实现是所有已标注数据的全量训练，即伪active learning）以及未标注数据inference之后的confidence ranking功能，返回确信度最低的几条数据。每个功能要写unit test。

另外，要实验这样的SVM全量训练在数据多了之后，是否能给到用户active learning级别的反馈速度。如果不够快的话，就要考虑加入online batch learning来代替每次全量数据集的训练，实现真正的active learning过程；这一块挑战多多。

暂时想到这么多，欢迎大家讨论呀！

JiaLei123 commented 6 years ago

我在作与API交互的页面，可以使用chrome浏览器打开webui/static/web_util.html 查看

hanpum commented 6 years ago

现在这个系统进展如何？好像还跑不起来？有什么开发计划吗

deepwel / Chinese-Annotator