-
When running unit tests under the project, output the following information.
I want to know how to solve it, thanks?
github.com/yanyiwu/gojieba [github.com/yanyiwu/gojieba.test]
In file include…
-
升级到 1.4.1 版本,这个问题没有了:
In file included from jieba.cpp:5:
In file included from ../../../pkg/mod/github.com/yanyiwu/gojieba@v1.3.0/deps/cppjieba/Jieba.hpp:4:
In file included from ../../../pkg/mod/g…
-
麻烦大佬帮忙看下哈。或者直接帮忙打个包release出来。谢谢啦
# github.com/yanyiwu/gojieba
In file included from vendor/github.com/yanyiwu/gojieba/deps/cppjieba/Unicode.hpp:9,
from vendor/github.com/yanyiw…
-
# github.com/yanyiwu/gojieba
In file included from jieba.cpp:5:
In file included from ../../../pkg/mod/github.com/yanyiwu/gojieba@v1.3.0/deps/cppjieba/Jieba.hpp:4:
In file included from ../../../pk…
-
请看这两个相关的issue和PR.
https://github.com/yanyiwu/cppjieba/pull/42
https://github.com/yanyiwu/cppjieba/issues/41
原理请看这里: https://github.com/fxsjy/jieba#基于-textrank-算法的关键词抽取
-
如果是win上msvc与qt的环境,msvc和qt会产生编码冲突,也就是msvc采用的编码不是utf8,如果在代码里面,检测到msvc与qt的时候可以加一个utf8的宏。
因为这种编码情况下会让很多字符无法以正常形式读取,比如注释会引发大量的报错。这种情况下,本机是gbk的情况下如果用utf8会无法加载出注释,也就是注释会乱码。如果用别的编码,那么vs工具链无法正常编译。
最关键的是,采用msv…
-
每个进程加载字典的时候都需要几秒时间,并且每个进程都需要大量的内存来存储这样的字典。若多个进程使用mmap共享使用一个最大的只读字典,将可能是一个不错的方案。
准备先修改一个牛人写的cppjieba来实现这个设想,请有兴趣的同学关注:https://github.com/jannson/cppjieba
提出这个方案的原因是因为在自己的两个项目当中确实需要多个进程去处理分词,而每次加载字典的时候…
-
重新规划新的 API,让大家用起来方便一些。下面是一些想法:
1、分离 Cppjieba 中的分词,关键词提取,Simhash 的方法为小的模块,不相互依赖。Cppjieba 5.0 增加了 Textrank 的模块,现有的接口想把这个模块整合起来,使用起来感觉可能会不方便。
在原有的 Cppjieba 的代码中,关键词提取和Simhash 的步骤是包含了分词步骤的,而这两个步骤其实可…
qinwf updated
8 years ago
-
cppjieba::Jieba构造函数如下,参数为std::string
```
Jieba(const string& dict_path,
const string& model_path,
const string& user_dict_path,
const string& idfPath,
const st…
-
cppjieba_rb is a dependency of Discourse, which I am trying to get to run on JRuby. However, JRuby does not support CRuby extensions.
There is a Java library (https://github.com/huaban/jieba-analys…