coccoc / coccoc-tokenizer

high performance tokenizer for Vietnamese language
GNU Lesser General Public License v3.0
387 stars 120 forks source link

Hướng dẫn đầy đủ cài đặt C++ Tokenizer & ES 7.12.1 Analysis Vietnam plugin #23

Open thusinh1969 opened 2 years ago

thusinh1969 commented 2 years ago

*** Môi trường Ubuntu 18.04 (or whatever), phải install Java JDK chứ không phải JRE vì cần javac cho cái C++ Tokenizer. Các file .yml tự làm cho chuẩn theo hường dẫn của các gits. Docker hay VM cũng vậy, đơn giản thế này.

sudo su apt-get update -y apt-get upgrade -y apt-get install build-essential cmake unzip pkg-config gcc-7 g++-7 -y apt-get install wget curl nano git default-jdk maven -y

cd /

*** Tải ElasticSearch 7.12.1 wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.12.1-linux-x86_64.tar.gz tar -xzf elasticsearch-7.12.1-linux-x86_64.tar.gz mv elasticsearch-7.12.1-linux-x86_64 /es

** Tải ES Analysis Vietnam git clone https://github.com/duydo/elasticsearch-analysis-vietnamese.git cd elasticsearch-analysis-vietnamese mvn package

** Tải C++ Tokenizer git clone https://github.com/coccoc/coccoc-tokenizer.git cd coccoc-tokenizer mkdir build cd build cmake -DBUILD_JAVA=1 .. make install

** Cài plugin: cd /es echo "Y" | ./bin/elasticsearch-plugin install file:///elasticsearch-analysis-vietnamese/target/releases/elasticsearch-analysis-vietnamese-7.12.1.zip

*** Chuẩn bị groupadd -g 999 nqrt && useradd -r -u 999 -g nqrt nqrt usermod -aG sudo nqrt chown nqrt:nqrt /es -R sysctl -w vm.max_map_count=262144

su nqrt

** Run export ES_JAVA_OPTS="-Xms2048m -Xmx2048m -Djava.library.path=/usr/local/lib" cd /es ./bin/elasticsearch

bachan commented 2 years ago

Cảm ơn bạn :)

cpfriend1721994 commented 2 years ago

Mình có viết Dockerfile/Docker-Compose Elasticsearch 7.12.1 với coccoc-tokenizer và elasticsearch-analysis-vietnamese cho ae nào cần https://github.com/cpfriend1721994/docker-es-cococ-tokenizer

lengockyquang commented 2 years ago

Cho mình hỏi coccoc-tokenizer có thể support thêm cho windows được không ạ ? Mình trong build_java.sh thì chỉ thấy build ra file so

Mr-Jack-Tung commented 1 year ago

xin chào, bạn cho mình hỏi chút, mình đang dùng máy macbook M1 (macOS Ventura), vậy làm thế nào để cài đặt được coccoc-tokenizer cho Python trên Jupiter Notebook nhỉ ? cảm ơn bạn nhé!

duytrandev commented 1 year ago

@Mr-Jack-Tung bạn đã cài được chưa, nếu được cho mình xin hướng dẫn với

hiendinhngoc commented 11 months ago

Khi cài xong tokenizer, mình có check lại bằng cách gõ tokenizer thì thấy báo lỗi: Error openning file, alphabetic Có ai gặp trường hợp này giống mình không nhỉ? Mình đang dùng ubuntu 20.04