har07 / PySastrawi

Indonesian stemmer. Python port of PHP Sastrawi project.
MIT License
335 stars 110 forks source link

Menambahkan stopword #9

Closed ghost closed 3 years ago

ghost commented 6 years ago

saya ingin menanyakan, apakah ada dokumentasi penambahan list stopword. jika belum ada bagaimana cara menambahkan kata ke list stopword.

prasastoadi commented 6 years ago

@rezaagungp bisa ditambahkan secara manual pada file StopWordRemoverFactory.py

widnyana commented 6 years ago

@prasastoadi apakah memungkinkan untuk mengimplementasi fitur muat stopwords dari file?

anggriyulio commented 6 years ago

Tinggal tambah saja list nya, CMIIW baru coba2 🍔

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

s = 'Aku pernah mendengar Aisya bercerita bahwa sebenarnya ia tidak terlalu senang dengan kabar perjodohan yang diatur oleh orang tuanya.'

#Create factory
stop_factory = StopWordRemoverFactory()
more_stopword = ['dengan', 'ia','bahwa','oleh']

# Tambahkan Stopword Baru
data = stop_factory.get_stop_words()+more_stopword

stopword = stop_factory.create_stop_word_remover()
print(stopword.remove(s))

source

arinanda commented 5 years ago

Tinggal tambah saja list nya, CMIIW baru coba2 🍔

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

s = 'Aku pernah mendengar Aisya bercerita bahwa sebenarnya ia tidak terlalu senang dengan kabar perjodohan yang diatur oleh orang tuanya.'

#Create factory
stop_factory = StopWordRemoverFactory()
more_stopword = ['dengan', 'ia','bahwa','oleh']

# Tambahkan Stopword Baru
data = stop_factory.get_stop_words()+more_stopword

stopword = stop_factory.create_stop_word_remover()
print(stopword.remove(s))

source

@anggriyulio saya sudah mengikuti cara ini, di file StopWordRemoverFactory.py kata yang saya ingin tambahkan berhasil masuk kedalam array, namun kata-kata baru tersebut tidak dihilangkan dari kalimat yang saya masukkan

anggriyulio commented 5 years ago

@arinanda Pake pysastrawi versi berapa ? Cara diatas bisa digunakan untuk sastrawi versi 1.1.0 dan sebelumnya. Silahkan baca di sini

Untuk versi 1.2.0 coba dengan cara ini

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, StopWordRemover, ArrayDictionary

s = 'Aku pernah mendengar Aisya bercerita bahwa sebenarnya ia tidak terlalu senang dengan kabar perjodohan yang diatur oleh orang tuanya.'

# Ambil Stopword bawaan
stop_factory = StopWordRemoverFactory().get_stop_words()
more_stopword = ['diatur', 'perjodohan']

# Merge stopword
data = stop_factory + more_stopword

dictionary = ArrayDictionary(data)
str = StopWordRemover(dictionary)

print(str.remove(s))

# Aku mendengar Aisya bercerita senang kabar tuanya.
rannbaraku commented 1 year ago

bagaimana cara menggunakan metode berbeda sari library, seperti list Tala, maupun Doly