undertheseanlp / underthesea

Underthesea - Vietnamese NLP Toolkit
http://undertheseanlp.com
GNU General Public License v3.0
1.42k stars 273 forks source link

Keyword extraction for Vietnamese #599

Open pdhlong opened 2 years ago

pdhlong commented 2 years ago

Do you plan on creating keyword extraction for Vietnamese, I have tried RAKE, YAKE, KeyBert, TextRank, ... but the results are not promising.

rain1024 commented 2 years ago

Do you plan on creating keyword extraction for Vietnamese?

No. But I think you can give Flashtext a try.

I have tried RAKE, YAKE, KeyBert, TextRank, ... but the results are not promising.

What is your use case? Please give me some example and your expectation

pdhlong commented 2 years ago

The aim is to extract/define the keywords - the most important/influential words of the input document. For example:

"Bóng đá là môn thể thao đồng đội được chơi giữa hai đội với nhau, mỗi đội có 11 cầu thủ trên sân. Trò chơi này dùng một quả bóng và thường được chơi trên sân cỏ hình chữ nhật với hai khung thành ở hai đầu sân. Mục tiêu của trò chơi là ghi điểm bằng cách đưa bóng vào khung thành của đội đối địch. Ngoại trừ thủ môn, các cầu thủ khác đều không được cố ý dùng tay hoặc cánh tay để chơi bóng. Đội chiến thắng là đội ghi được nhiều bàn thắng hơn khi kết thúc trận đấu."

The outputs could be:

"bóng", "đội", "cầu thủ", "khung thành"

rain1024 commented 2 years ago

Interesting topic. I will invest it later to see how can we do :D