quanteda / stopwords

Multilingual Stopword Lists in R
http://stopwords.quanteda.io
Other
113 stars 9 forks source link

Fix Turkish #16

Closed kbenoit closed 5 years ago

kbenoit commented 5 years ago

Fix the mis-encoded "ı" character from some words in Turkish.

Fixes #15.

Now looks like:

> stopwords::stopwords("tr", source = "stopwords-iso")
  [1] "acaba"          "acep"           "adamakıllı"     "adeta"          "ait"           
  [6] "altmıþ"         "altmış"         "altı"           "ama"            "amma"          
 [11] "anca"           "ancak"          "arada"          "artık"          "aslında"       
 [16] "aynen"          "ayrıca"         "az"             "açıkça"         "açıkçası"      
 [21] "bana"           "bari"           "bazen"          "bazı"           "başkası"       
 [26] "baţka"          "belki"          "ben"            "benden"         "beni"          
 [31] "benim"          "beri"           "beriki"         "beþ"            "beş"           
 [36] "beţ"            "bilcümle"       "bile"           "bin"            "binaen"        
 [41] "binaenaleyh"    "bir"            "biraz"          "birazdan"       "birbiri"       
 [46] "birden"         "birdenbire"     "biri"           "birice"         "birileri"      
 [51] "birisi"         "birkaç"         "birkaçı"        "birkez"         "birlikte"      
 [56] "birçok"         "birçoğu"        "birþey"         "birþeyi"        "birşey"        
 [61] "birşeyi"        "birţey"         "bitevi"         "biteviye"       "bittabi"       
 [66] "biz"            "bizatihi"       "bizce"          "bizcileyin"     "bizden"        
 [71] "bize"           "bizi"           "bizim"          "bizimki"        "bizzat"        
 [76] "boşuna"         "bu"             "buna"           "bunda"          "bundan"        
 [81] "bunlar"         "bunları"        "bunların"       "bunu"           "bunun"         
 [86] "buracıkta"      "burada"         "buradan"        "burası"         "böyle"         
 [91] "böylece"        "böylecene"      "böylelikle"     "böylemesine"    "böylesine"     
 [96] "büsbütün"       "bütün"          "cuk"            "cümlesi"        "da"            
[101] "daha"           "dahi"           "dahil"          "dahilen"        "daima"         
[106] "dair"           "dayanarak"      "de"             "defa"           "dek"           
[111] "demin"          "demincek"       "deminden"       "denli"          "derakap"       
[116] "derhal"         "derken"         "deđil"          "değil"          "değin"         
[121] "diye"           "diđer"          "diğer"          "diğeri"         "doksan"        
[126] "dokuz"          "dolayı"         "dolayısıyla"    "doğru"          "dört"          
[131] "edecek"         "eden"           "ederek"         "edilecek"       "ediliyor"      
[136] "edilmesi"       "ediyor"         "elbet"          "elbette"        "elli"          
[141] "emme"           "en"             "enikonu"        "epey"           "epeyce"        
[146] "epeyi"          "esasen"         "esnasında"      "etmesi"         "etraflı"       
[151] "etraflıca"      "etti"           "ettiği"         "ettiğini"       "evleviyetle"   
[156] "evvel"          "evvela"         "evvelce"        "evvelden"       "evvelemirde"   
[161] "evveli"         "eđer"           "eğer"           "fakat"          "filanca"       
[166] "gah"            "gayet"          "gayetle"        "gayri"          "gayrı"         
[171] "gelgelelim"     "gene"           "gerek"          "gerçi"          "geçende"       
[176] "geçenlerde"     "gibi"           "gibilerden"     "gibisinden"     "gine"          
[181] "göre"           "gırla"          "hakeza"         "halbuki"        "halen"         
[186] "halihazırda"    "haliyle"        "handiyse"       "hangi"          "hangisi"       
[191] "hani"           "hariç"          "hasebiyle"      "hasılı"         "hatta"         
[196] "hele"           "hem"            "henüz"          "hep"            "hepsi"         
[201] "her"            "herhangi"       "herkes"         "herkesin"       "hiç"           
[206] "hiçbir"         "hiçbiri"        "hoş"            "hulasaten"      "iken"          
[211] "iki"            "ila"            "ile"            "ilen"           "ilgili"        
[216] "ilk"            "illa"           "illaki"         "imdi"           "indinde"       
[221] "inen"           "insermi"        "ise"            "ister"          "itibaren"      
[226] "itibariyle"     "itibarıyla"     "iyi"            "iyice"          "iyicene"       
[231] "için"           "iş"             "işte"           "iţte"           "kadar"         
[236] "kaffesi"        "kah"            "kala"           "kanımca"        "karşın"        
[241] "katrilyon"      "kaynak"         "kaçı"           "kelli"          "kendi"         
[246] "kendilerine"    "kendini"        "kendisi"        "kendisine"      "kendisini"     
[251] "kere"           "kez"            "keza"           "kezalik"        "keşke"         
[256] "keţke"          "ki"             "kim"            "kimden"         "kime"          
[261] "kimi"           "kimisi"         "kimse"          "kimsecik"       "kimsecikler"   
[266] "külliyen"       "kırk"           "kısaca"         "lakin"          "leh"           
[271] "lütfen"         "maada"          "madem"          "mademki"        "mamafih"       
[276] "mebni"          "međer"          "meğer"          "meğerki"        "meğerse"       
[281] "milyar"         "milyon"         "mu"             "mü"             "mı"            
[286] "nasıl"          "nasılsa"        "nazaran"        "naşi"           "ne"            
[291] "neden"          "nedeniyle"      "nedenle"        "nedense"        "nerde"         
[296] "nerden"         "nerdeyse"       "nere"           "nerede"         "nereden"       
[301] "neredeyse"      "neresi"         "nereye"         "netekim"        "neye"          
[306] "neyi"           "neyse"          "nice"           "nihayet"        "nihayetinde"   
[311] "nitekim"        "niye"           "niçin"          "o"              "olan"          
[316] "olarak"         "oldu"           "olduklarını"    "oldukça"        "olduğu"        
[321] "olduğunu"       "olmadı"         "olmadığı"       "olmak"          "olması"        
[326] "olmayan"        "olmaz"          "olsa"           "olsun"          "olup"          
[331] "olur"           "olursa"         "oluyor"         "on"             "ona"           
[336] "onca"           "onculayın"      "onda"           "ondan"          "onlar"         
[341] "onlardan"       "onlari"         "onların"        "onları"         "onu"           
[346] "onun"           "oracık"         "oracıkta"       "orada"          "oradan"        
[351] "oranca"         "oranla"         "oraya"          "otuz"           "oysa"          
[356] "oysaki"         "pek"            "pekala"         "peki"           "pekçe"         
[361] "peyderpey"      "rağmen"         "sadece"         "sahi"           "sahiden"       
[366] "sana"           "sanki"          "sekiz"          "seksen"         "sen"           
[371] "senden"         "seni"           "senin"          "siz"            "sizden"        
[376] "sizi"           "sizin"          "sonra"          "sonradan"       "sonraları"     
[381] "sonunda"        "tabii"          "tam"            "tamam"          "tamamen"       
[386] "tamamıyla"      "tarafından"     "tek"            "trilyon"        "tüm"           
[391] "var"            "vardı"          "vasıtasıyla"    "ve"             "velev"         
[396] "velhasıl"       "velhasılıkelam" "veya"           "veyahut"        "ya"            
[401] "yahut"          "yakinen"        "yakında"        "yakından"       "yakınlarda"    
[406] "yalnız"         "yalnızca"       "yani"           "yapacak"        "yapmak"        
[411] "yaptı"          "yaptıkları"     "yaptığı"        "yaptığını"      "yapılan"       
[416] "yapılması"      "yapıyor"        "yedi"           "yeniden"        "yenilerde"     
[421] "yerine"         "yetmiþ"         "yetmiş"         "yetmiţ"         "yine"          
[426] "yirmi"          "yok"            "yoksa"          "yoluyla"        "yüz"           
[431] "yüzünden"       "zarfında"       "zaten"          "zati"           "zira"          
[436] "çabuk"          "çabukça"        "çeşitli"        "çok"            "çokları"       
[441] "çoklarınca"     "çokluk"         "çoklukla"       "çokça"          "çoğu"          
[446] "çoğun"          "çoğunca"        "çoğunlukla"     "çünkü"          "öbür"          
[451] "öbürkü"         "öbürü"          "önce"           "önceden"        "önceleri"      
[456] "öncelikle"      "öteki"          "ötekisi"        "öyle"           "öylece"        
[461] "öylelikle"      "öylemesine"     "öz"             "üzere"          "üç"            
[466] "þey"            "þeyden"         "þeyi"           "þeyler"         "þu"            
[471] "þuna"           "þunda"          "þundan"         "þunu"           "şayet"         
[476] "şey"            "şeyden"         "şeyi"           "şeyler"         "şu"            
[481] "şuna"           "şuncacık"       "şunda"          "şundan"         "şunlar"        
[486] "şunları"        "şunu"           "şunun"          "şura"           "şuracık"       
[491] "şuracıkta"      "şurası"         "şöyle"          "ţayet"          "ţimdi"         
[496] "ţu"             "ţöyle" 
erkanozhan commented 5 years ago

Unfortunately, there are still mistakes.

  word Correct Details
1 acaba    
2 acep    
3 adamakıllı    
4 adeta    
5 ait    
6 altmýþ altmış There are already existing.
7 altmış    
8 altý altı There are already existing.
9 altı    
10 ama    
11 amma    
12 anca    
13 ancak    
14 arada    
15 artýk artık  
16 aslında    
17 aynen    
18 ayrıca    
19 az    
20 açıkça    
21 açıkçası    
22 bana    
23 bari    
24 bazen    
25 bazý bazı There are already existing.
26 bazı    
27 başkası    
28 baţka başka  
29 belki    
30 ben    
31 benden    
32 beni    
33 benim    
34 beri    
35 beriki    
36 beþ beş There are already existing.
37 beş    
38 beţ beş There are already existing.
39 bilcümle    
40 bile    
41 bin    
42 binaen    
43 binaenaleyh    
44 bir    
45 biraz    
46 birazdan    
47 birbiri    
48 birden    
49 birdenbire    
50 biri    
51 birice    
52 birileri    
53 birisi    
54 birkaç    
55 birkaçı    
56 birkez    
57 birlikte    
58 birçok    
59 birçoğu    
60 birþey birşey There are already existing.
61 birþeyi birşeyi There are already existing.
62 birşey    
63 birşeyi    
64 birţey birşey  
65 bitevi    
66 biteviye    
67 bittabi    
68 biz    
69 bizatihi    
70 bizce    
71 bizcileyin    
72 bizden    
73 bize    
74 bizi    
75 bizim    
76 bizimki    
77 bizzat    
78 boşuna    
79 bu    
80 buna    
81 bunda    
82 bundan    
83 bunlar    
84 bunları    
85 bunların    
86 bunu    
87 bunun    
88 buracıkta    
89 burada    
90 buradan    
91 burası    
92 böyle    
93 böylece    
94 böylecene    
95 böylelikle    
96 böylemesine    
97 böylesine    
98 büsbütün    
99 bütün    
100 cuk    
101 cümlesi    
102 da    
103 daha    
104 dahi    
105 dahil    
106 dahilen    
107 daima    
108 dair    
109 dayanarak    
110 de    
111 defa    
112 dek    
113 demin    
114 demincek    
115 deminden    
116 denli    
117 derakap    
118 derhal    
119 derken    
120 deđil değil There are already existing.
121 değil    
122 değin    
123 diye    
124 diđer diğer There are already existing.
125 diğer    
126 diğeri    
127 doksan    
128 dokuz    
129 dolayı    
130 dolayısıyla    
131 doğru    
132 dört    
133 edecek    
134 eden    
135 ederek    
136 edilecek    
137 ediliyor    
138 edilmesi    
139 ediyor    
140 elbet    
141 elbette    
142 elli    
143 emme    
144 en    
145 enikonu    
146 epey    
147 epeyce    
148 epeyi    
149 esasen    
150 esnasında    
151 etmesi    
152 etraflı    
153 etraflıca    
154 etti    
155 ettiği    
156 ettiğini    
157 evleviyetle    
158 evvel    
159 evvela    
160 evvelce    
161 evvelden    
162 evvelemirde    
163 evveli    
164 eđer eder  
165 eğer    
166 fakat    
167 filanca    
168 gah    
169 gayet    
170 gayetle    
171 gayri    
172 gayrı    
173 gelgelelim    
174 gene    
175 gerek    
176 gerçi    
177 geçende    
178 geçenlerde    
179 gibi    
180 gibilerden    
181 gibisinden    
182 gine    
183 göre    
184 gırla    
185 hakeza    
186 halbuki    
187 halen    
188 halihazırda    
189 haliyle    
190 handiyse    
191 hangi    
192 hangisi    
193 hani    
194 hariç    
195 hasebiyle    
196 hasılı    
197 hatta    
198 hele    
199 hem    
200 henüz    
201 hep    
202 hepsi    
203 her    
204 herhangi    
205 herkes    
206 herkesin    
207 hiç    
208 hiçbir    
209 hiçbiri    
210 hoş    
211 hulasaten    
212 iken    
213 iki    
214 ila    
215 ile    
216 ilen    
217 ilgili    
218 ilk    
219 illa    
220 illaki    
221 imdi    
222 indinde    
223 inen    
224 insermi    
225 ise    
226 ister    
227 itibaren    
228 itibariyle    
229 itibarıyla    
230 iyi    
231 iyice    
232 iyicene    
233 için    
234    
235 işte    
236 iţte işte There are already existing.
237 kadar    
238 kaffesi    
239 kah    
240 kala    
241 kanýmca kanımca  
242 karşın    
243 katrilyon    
244 kaynak    
245 kaçı    
246 kelli    
247 kendi    
248 kendilerine    
249 kendini    
250 kendisi    
251 kendisine    
252 kendisini    
253 kere    
254 kez    
255 keza    
256 kezalik    
257 keşke    
258 keţke keşke There are already existing.
259 ki    
260 kim    
261 kimden    
262 kime    
263 kimi    
264 kimisi    
265 kimse    
266 kimsecik    
267 kimsecikler    
268 külliyen    
269 kýrk kırk There are already existing.
270 kýsaca kısaca There are already existing.
271 kırk    
272 kısaca    
273 lakin    
274 leh    
275 lütfen    
276 maada    
277 madem    
278 mademki    
279 mamafih    
280 mebni    
281 međer meğer There are already existing.
282 meğer    
283 meğerki    
284 meğerse    
285 milyar    
286 milyon    
287 mu    
288    
289 There are already existing.
290    
291 nasýl nasıl There are already existing.
292 nasıl    
293 nasılsa    
294 nazaran    
295 naşi    
296 ne    
297 neden    
298 nedeniyle    
299 nedenle    
300 nedense    
301 nerde    
302 nerden    
303 nerdeyse    
304 nere    
305 nerede    
306 nereden    
307 neredeyse    
308 neresi    
309 nereye    
310 netekim    
311 neye    
312 neyi    
313 neyse    
314 nice    
315 nihayet    
316 nihayetinde    
317 nitekim    
318 niye    
319 niçin    
320 o    
321 olan    
322 olarak    
323 oldu    
324 olduklarını    
325 oldukça    
326 olduğu    
327 olduğunu    
328 olmadı    
329 olmadığı    
330 olmak    
331 olması    
332 olmayan    
333 olmaz    
334 olsa    
335 olsun    
336 olup    
337 olur    
338 olursa    
339 oluyor    
340 on    
341 ona    
342 onca    
343 onculayın    
344 onda    
345 ondan    
346 onlar    
347 onlardan    
348 onlari onları There are already existing.
349 onlarýn onların  
350 onları    
351 onların    
352 onu    
353 onun    
354 oracık    
355 oracıkta    
356 orada    
357 oradan    
358 oranca    
359 oranla    
360 oraya    
361 otuz    
362 oysa    
363 oysaki    
364 pek    
365 pekala    
366 peki    
367 pekçe    
368 peyderpey    
369 rağmen    
370 sadece    
371 sahi    
372 sahiden    
373 sana    
374 sanki    
375 sekiz    
376 seksen    
377 sen    
378 senden    
379 seni    
380 senin    
381 siz    
382 sizden    
383 sizi    
384 sizin    
385 sonra    
386 sonradan    
387 sonraları    
388 sonunda    
389 tabii    
390 tam    
391 tamam    
392 tamamen    
393 tamamıyla    
394 tarafından    
395 tek    
396 trilyon    
397 tüm    
398 var    
399 vardı    
400 vasıtasıyla    
401 ve    
402 velev    
403 velhasıl    
404 velhasılıkelam    
405 veya    
406 veyahut    
407 ya    
408 yahut    
409 yakinen    
410 yakında    
411 yakından    
412 yakınlarda    
413 yalnız    
414 yalnızca    
415 yani    
416 yapacak    
417 yapmak    
418 yaptı    
419 yaptıkları    
420 yaptığı    
421 yaptığını    
422 yapılan    
423 yapılması    
424 yapıyor    
425 yedi    
426 yeniden    
427 yenilerde    
428 yerine    
429 yetmiþ yetmiş There are already existing.
430 yetmiş    
431 yetmiţ yetmiş There are already existing.
432 yine    
433 yirmi    
434 yok    
435 yoksa    
436 yoluyla    
437 yüz    
438 yüzünden    
439 zarfında    
440 zaten    
441 zati    
442 zira    
443 çabuk    
444 çabukça    
445 çeşitli    
446 çok    
447 çokları    
448 çoklarınca    
449 çokluk    
450 çoklukla    
451 çokça    
452 çoğu    
453 çoğun    
454 çoğunca    
455 çoğunlukla    
456 çünkü    
457 öbür    
458 öbürkü    
459 öbürü    
460 önce    
461 önceden    
462 önceleri    
463 öncelikle    
464 öteki    
465 ötekisi    
466 öyle    
467 öylece    
468 öylelikle    
469 öylemesine    
470 öz    
471 üzere    
472 üç    
473 þey şey There are already existing.
474 þeyden şeyden There are already existing.
475 þeyi şeyi There are already existing.
476 þeyler şeyler There are already existing.
477 þu şu There are already existing.
478 þuna şuna There are already existing.
479 þunda şunda There are already existing.
480 þundan şundan There are already existing.
481 þunu şunu There are already existing.
482 şayet    
483 şey    
484 şeyden    
485 şeyi    
486 şeyler    
487 şu    
488 şuna    
489 şuncacık    
490 şunda    
491 şundan    
492 şunlar    
493 şunları    
494 şunu    
495 şunun    
496 şura    
497 şuracık    
498 şuracıkta    
499 şurası    
500 şöyle    
501 ţayet şayet There are already existing.
502 ţimdi şimdi  
503 ţu şu There are already existing.
504 ţöyle şöyle There are already existing.
kbenoit commented 5 years ago

Great, I will fix those.

kbenoit commented 5 years ago

OK, now looks like:

> stopwords("tr", source = "stopwords-iso")
  [1] "acaba"          "acep"           "açıkça"         "açıkçası"       "adamakıllı"     "adeta"         
  [7] "ait"            "altı"           "altmış"         "ama"            "amma"           "anca"          
 [13] "ancak"          "arada"          "artık"          "aslında"        "aynen"          "ayrıca"        
 [19] "az"             "bana"           "bari"           "başka"          "başkası"        "bazen"         
 [25] "bazı"           "belki"          "ben"            "benden"         "beni"           "benim"         
 [31] "beri"           "beriki"         "beş"            "bilcümle"       "bile"           "bin"           
 [37] "binaen"         "binaenaleyh"    "bir"            "biraz"          "birazdan"       "birbiri"       
 [43] "birçoğu"        "birçok"         "birden"         "birdenbire"     "biri"           "birice"        
 [49] "birileri"       "birisi"         "birkaç"         "birkaçı"        "birkez"         "birlikte"      
 [55] "birşey"         "birşey"         "birşeyi"        "bitevi"         "biteviye"       "bittabi"       
 [61] "biz"            "bizatihi"       "bizce"          "bizcileyin"     "bizden"         "bize"          
 [67] "bizi"           "bizim"          "bizimki"        "bizzat"         "boşuna"         "böyle"         
 [73] "böylece"        "böylecene"      "böylelikle"     "böylemesine"    "böylesine"      "bu"            
 [79] "buna"           "bunda"          "bundan"         "bunlar"         "bunları"        "bunların"      
 [85] "bunu"           "bunun"          "buracıkta"      "burada"         "buradan"        "burası"        
 [91] "büsbütün"       "bütün"          "çabuk"          "çabukça"        "çeşitli"        "çoğu"          
 [97] "çoğun"          "çoğunca"        "çoğunlukla"     "çok"            "çokça"          "çokları"       
[103] "çoklarınca"     "çokluk"         "çoklukla"       "cuk"            "cümlesi"        "çünkü"         
[109] "da"             "daha"           "dahi"           "dahil"          "dahilen"        "daima"         
[115] "dair"           "dayanarak"      "de"             "defa"           "değil"          "değin"         
[121] "dek"            "demin"          "demincek"       "deminden"       "denli"          "derakap"       
[127] "derhal"         "derken"         "diğer"          "diğeri"         "diye"           "doğru"         
[133] "doksan"         "dokuz"          "dolayı"         "dolayısıyla"    "dört"           "edecek"        
[139] "eden"           "eder"           "ederek"         "edilecek"       "ediliyor"       "edilmesi"      
[145] "ediyor"         "eğer"           "elbet"          "elbette"        "elli"           "emme"          
[151] "en"             "enikonu"        "epey"           "epeyce"         "epeyi"          "esasen"        
[157] "esnasında"      "etmesi"         "etraflı"        "etraflıca"      "etti"           "ettiği"        
[163] "ettiğini"       "evleviyetle"    "evvel"          "evvela"         "evvelce"        "evvelden"      
[169] "evvelemirde"    "evveli"         "fakat"          "filanca"        "gah"            "gayet"         
[175] "gayetle"        "gayri"          "gayrı"          "geçende"        "geçenlerde"     "gelgelelim"    
[181] "gene"           "gerçi"          "gerek"          "gibi"           "gibilerden"     "gibisinden"    
[187] "gine"           "gırla"          "göre"           "hakeza"         "halbuki"        "halen"         
[193] "halihazırda"    "haliyle"        "handiyse"       "hangi"          "hangisi"        "hani"          
[199] "hariç"          "hasebiyle"      "hasılı"         "hatta"          "hele"           "hem"           
[205] "henüz"          "hep"            "hepsi"          "her"            "herhangi"       "herkes"        
[211] "herkesin"       "hiç"            "hiçbir"         "hiçbiri"        "hoş"            "hulasaten"     
[217] "için"           "iken"           "iki"            "ila"            "ile"            "ilen"          
[223] "ilgili"         "ilk"            "illa"           "illaki"         "imdi"           "indinde"       
[229] "inen"           "insermi"        "iş"             "ise"            "işte"           "ister"         
[235] "itibaren"       "itibariyle"     "itibarıyla"     "iyi"            "iyice"          "iyicene"       
[241] "kaçı"           "kadar"          "kaffesi"        "kah"            "kala"           "kanımca"       
[247] "karşın"         "katrilyon"      "kaynak"         "kelli"          "kendi"          "kendilerine"   
[253] "kendini"        "kendisi"        "kendisine"      "kendisini"      "kere"           "keşke"         
[259] "kez"            "keza"           "kezalik"        "ki"             "kim"            "kimden"        
[265] "kime"           "kimi"           "kimisi"         "kimse"          "kimsecik"       "kimsecikler"   
[271] "kırk"           "kısaca"         "külliyen"       "lakin"          "leh"            "lütfen"        
[277] "maada"          "madem"          "mademki"        "mamafih"        "mebni"          "meğer"         
[283] "meğerki"        "meğerse"        "milyar"         "milyon"         "mı"             "mu"            
[289] "mü"             "naşi"           "nasıl"          "nasılsa"        "nazaran"        "ne"            
[295] "neden"          "nedeniyle"      "nedenle"        "nedense"        "nerde"          "nerden"        
[301] "nerdeyse"       "nere"           "nerede"         "nereden"        "neredeyse"      "neresi"        
[307] "nereye"         "netekim"        "neye"           "neyi"           "neyse"          "nice"          
[313] "niçin"          "nihayet"        "nihayetinde"    "nitekim"        "niye"           "o"             
[319] "öbür"           "öbürkü"         "öbürü"          "olan"           "olarak"         "oldu"          
[325] "olduğu"         "olduğunu"       "oldukça"        "olduklarını"    "olmadı"         "olmadığı"      
[331] "olmak"          "olması"         "olmayan"        "olmaz"          "olsa"           "olsun"         
[337] "olup"           "olur"           "olursa"         "oluyor"         "on"             "ona"           
[343] "onca"           "önce"           "önceden"        "önceleri"       "öncelikle"      "onculayın"     
[349] "onda"           "ondan"          "onlar"          "onlardan"       "onları"         "onların"       
[355] "onların"        "onu"            "onun"           "oracık"         "oracıkta"       "orada"         
[361] "oradan"         "oranca"         "oranla"         "oraya"          "öteki"          "ötekisi"       
[367] "otuz"           "öyle"           "öylece"         "öylelikle"      "öylemesine"     "oysa"          
[373] "oysaki"         "öz"             "pek"            "pekala"         "pekçe"          "peki"          
[379] "peyderpey"      "rağmen"         "sadece"         "sahi"           "sahiden"        "sana"          
[385] "sanki"          "şayet"          "sekiz"          "seksen"         "sen"            "senden"        
[391] "seni"           "senin"          "şey"            "şeyden"         "şeyi"           "şeyler"        
[397] "şimdi"          "siz"            "sizden"         "sizi"           "sizin"          "sonra"         
[403] "sonradan"       "sonraları"      "sonunda"        "şöyle"          "şu"             "şuna"          
[409] "şuncacık"       "şunda"          "şundan"         "şunlar"         "şunları"        "şunu"          
[415] "şunun"          "şura"           "şuracık"        "şuracıkta"      "şurası"         "tabii"         
[421] "tam"            "tamam"          "tamamen"        "tamamıyla"      "tarafından"     "tek"           
[427] "trilyon"        "tüm"            "üç"             "üzere"          "var"            "vardı"         
[433] "vasıtasıyla"    "ve"             "velev"          "velhasıl"       "velhasılıkelam" "veya"          
[439] "veyahut"        "ya"             "yahut"          "yakinen"        "yakında"        "yakından"      
[445] "yakınlarda"     "yalnız"         "yalnızca"       "yani"           "yapacak"        "yapılan"       
[451] "yapılması"      "yapıyor"        "yapmak"         "yaptı"          "yaptığı"        "yaptığını"     
[457] "yaptıkları"     "yedi"           "yeniden"        "yenilerde"      "yerine"         "yetmiş"        
[463] "yine"           "yirmi"          "yok"            "yoksa"          "yoluyla"        "yüz"           
[469] "yüzünden"       "zarfında"       "zaten"          "zati"           "zira"  
erkanozhan commented 5 years ago

@kbenoit, great job. Now I have nothing on my mind. But is it possible to add new words to this list in the future? Of course, without exhausting you. Thank you for your interest and effort.
Greetings...

erkanozhan commented 5 years ago

stopwords("tr", source = "stopwords-iso") In R, I still see the characters mis-encoded and have 498 words. Is this normal?

kbenoit commented 5 years ago

Did you install the PR branch?

devtools::install_github(“quanteda/stopwords”, ref = “fix-tr”)
erkanozhan commented 5 years ago

@kbenoit, It was a good cooperation and experience. Thanks for everything.

"Turkish Stopwords" now seems to be properly encoded.

library(devtools) devtools::install_github("quanteda/stopwords", ref = "fix-tr") stopwords("tr", source = "stopwords-iso")

I wish you success in your work. Greetings..