zhangby2085 / Fuzzy-String-Matching

MIT License
0 stars 1 forks source link

Stop words #2

Open zhangby2085 opened 6 years ago

zhangby2085 commented 6 years ago

import nltk nltk.download('stopwords') from nltk.corpus import stopwords

print stopwords.fileids()

en_stops = set(stopwords.words('finnish')) all_words = open("./testrun.txt") for word in all_words: if word not in en_stops: print(word)

for example, if we print en_stops set([u't\xe4ksi', u'josta', u'olisitte', u'kenelle', u'noilta', u'keill\xe4', u'n\xe4ilt\xe4', u'noissa', u'meiss\xe4', u'niiss\xe4', u'niill\xe4', u'silt\xe4', u'olisin', u'keneen', u'kun', u'joissa', u'sinusta', u'teid\xe4n', u'niilt\xe4', u'niiden', u'teid\xe4t', u'olisit', u'olivat', u'te', u'keihin', u'olimme', u'minun', u'sinulta', u'joina', u'sinun', u'sinua', u'n\xe4ill\xe4', u'keist\xe4', u'kenest\xe4', u'keit\xe4', u'me', u'kenelt\xe4', u'jossa', u'sit\xe4', u'sin\xe4', u'kanssa', u'sinut', u'emme', u'ket\xe4', u'sinulla', u'tuosta', u'joista', u'meille', u'sinulle', u'jota', u'olin', u'heihin', u'niit\xe4', u'n\xe4iss\xe4', u't\xe4lle', u'en', u'ei', u'ole', u'mihin', u'mukaan', u'oli', u'kenell\xe4', u'mist\xe4', u'minulla', u'nuo', u'olemme', u'olit', u'et', u'sinussa', u'jotka', u'ketk\xe4', u'minulta', u'meist\xe4', u'tuolta', u'siin\xe4', u'olette', u't\xe4n\xe4', u'milt\xe4', u'mink\xe4', u'jolla', u'joilla', u'joille', u'teihin', u'kenen', u'olisivat', u'jolle', u'meilt\xe4', u'n\xe4ille', u'tuolle', u'noista', u't\xe4st\xe4', u'mutta', u'tuo', u'kenet', u'meihin', u'niille', u'vaan', u'ja', u'jolta', u'on', u'koska', u'noilla', u'olisi', u'joka', u'meill\xe4', u'n\xe4iksi', u't\xe4t\xe4', u'heille', u'h\xe4n', u'noiden', u'jos', u'yli', u'ovat', u'kuka', u'kein\xe4', u'h\xe4nelle', u'joihin', u't\xe4h\xe4n', u'olla', u'noin', u'min\xe4', u'ett\xe4', u'siihen', u'n\xe4ihin', u'teill\xe4', u'n\xe4m\xe4', u'tuon', u'niihin', u'n\xe4iden', u'vai', u'niist\xe4', u'teiss\xe4', u'eiv\xe4t', u'niin', u'keille', u'keiksi', u'h\xe4nt\xe4', u'keneksi', u'minusta', u'kuin', u'teit\xe4', u'ollut', u'mill\xe4', u'teilt\xe4', u'tuossa', u'noille', u'johon', u'keness\xe4', u'joiden', u'he', u'sinuun', u'olet', u'teist\xe4', u'olisimme', u'joilta', u'sille', u'minulle', u'siksi', u'heid\xe4n', u'minua', u'tuolla', u'keilt\xe4', u'minussa', u'olen', u'niiksi', u'minut', u'sek\xe4', u'heilt\xe4', u'h\xe4nell\xe4', u't\xe4ss\xe4', u'heid\xe4t', u'h\xe4nen', u'heit\xe4', u'tuoksi', u'ette', u'h\xe4net', u'joiksi', u'minuun', u'teille', u'noita', u'sen', u'h\xe4nelt\xe4', u't\xe4m\xe4', u'miksi', u'tai', u'vaikka', u'noiksi', u'heill\xe4', u'miss\xe4', u'meit\xe4', u'ne', u'nyt', u'jona', u'n\xe4in\xe4', u'keiss\xe4', u'mille', u'itse', u'olitte', u'mik\xe4', u'keiden', u'olleet', u't\xe4lt\xe4', u'kenen\xe4', u'n\xe4ist\xe4', u'meid\xe4t', u'noina', u'tuohon', u'tuona', u'meid\xe4n', u'tall\xe4', u'heiss\xe4', u'joksi', u'h\xe4nest\xe4', u'jonka', u'h\xe4neen', u'poikki', u'joita', u'sill\xe4', u't\xe4m\xe4n', u'niin\xe4', u'h\xe4ness\xe4', u'mitk\xe4', u'heist\xe4', u'n\xe4it\xe4', u'mit\xe4', u'tuot\xe4', u'siit\xe4', u'noihin', u'se'])

the Finnish stop words are not strong enough in nltk maybe update from https://github.com/stopwords-iso/stopwords-fi/blob/master/stopwords-fi.txt

zhangby2085 commented 6 years ago

set([u'täksi', u'josta', u'olisitte', u'kenelle', u'noilta', u'keillä', u'näiltä', u'noissa', u'meissä', u'niissä', u'niillä', u'siltä', u'olisin', u'keneen', u'kun', u'joissa', u'sinusta', u'teidän', u'niiltä', u'niiden', u'teidät', u'olisit', u'olivat', u'te', u'keihin', u'olimme', u'minun', u'sinulta', u'joina', u'sinun', u'sinua', u'näillä', u'keistä', u'kenestä', u'keitä', u'me', u'keneltä', u'jossa', u'sitä', u'sinä', u'kanssa', u'sinut', u'emme', u'ketä', u'sinulla', u'tuosta', u'joista', u'meille', u'sinulle', u'jota', u'olin', u'heihin', u'niitä', u'näissä', u'tälle', u'en', u'ei', u'ole', u'mihin', u'mukaan', u'oli', u'kenellä', u'mistä', u'minulla', u'nuo', u'olemme', u'olit', u'et', u'sinussa', u'jotka', u'ketkä', u'minulta', u'meistä', u'tuolta', u'siinä', u'olette', u'tänä', u'miltä', u'minkä', u'jolla', u'joilla', u'joille', u'teihin', u'kenen', u'olisivat', u'jolle', u'meiltä', u'näille', u'tuolle', u'noista', u'tästä', u'mutta', u'tuo', u'kenet', u'meihin', u'niille', u'vaan', u'ja', u'jolta', u'on', u'koska', u'noilla', u'olisi', u'joka', u'meillä', u'näiksi', u'tätä', u'heille', u'hän', u'noiden', u'jos', u'yli', u'ovat', u'kuka', u'keinä', u'hänelle', u'joihin', u'tähän', u'olla', u'noin', u'minä', u'että', u'siihen', u'näihin', u'teillä', u'nämä', u'tuon', u'niihin', u'näiden', u'vai', u'niistä', u'teissä', u'eivät', u'niin', u'keille', u'keiksi', u'häntä', u'keneksi', u'minusta', u'kuin', u'teitä', u'ollut', u'millä', u'teiltä', u'tuossa', u'noille', u'johon', u'kenessä', u'joiden', u'he', u'sinuun', u'olet', u'teistä', u'olisimme', u'joilta', u'sille', u'minulle', u'siksi', u'heidän', u'minua', u'tuolla', u'keiltä', u'minussa', u'olen', u'niiksi', u'minut', u'sekä', u'heiltä', u'hänellä', u'tässä', u'heidät', u'hänen', u'heitä', u'tuoksi', u'ette', u'hänet', u'joiksi', u'minuun', u'teille', u'noita', u'sen', u'häneltä', u'tämä', u'miksi', u'tai', u'vaikka', u'noiksi', u'heillä', u'missä', u'meitä', u'ne', u'nyt', u'jona', u'näinä', u'keissä', u'mille', u'itse', u'olitte', u'mikä', u'keiden', u'olleet', u'tältä', u'kenenä', u'näistä', u'meidät', u'noina', u'tuohon', u'tuona', u'meidän', u'tallä', u'heissä', u'joksi', u'hänestä', u'jonka', u'häneen', u'poikki', u'joita', u'sillä', u'tämän', u'niinä', u'hänessä', u'mitkä', u'heistä', u'näitä', u'mitä', u'tuotä', u'siitä', u'noihin', u'se'])