Closed kbenoit closed 5 years ago
Unfortunately, there are still mistakes.
word | Correct | Details | |
---|---|---|---|
1 | acaba | ||
2 | acep | ||
3 | adamakıllı | ||
4 | adeta | ||
5 | ait | ||
6 | altmýþ | altmış | There are already existing. |
7 | altmış | ||
8 | altý | altı | There are already existing. |
9 | altı | ||
10 | ama | ||
11 | amma | ||
12 | anca | ||
13 | ancak | ||
14 | arada | ||
15 | artýk | artık | |
16 | aslında | ||
17 | aynen | ||
18 | ayrıca | ||
19 | az | ||
20 | açıkça | ||
21 | açıkçası | ||
22 | bana | ||
23 | bari | ||
24 | bazen | ||
25 | bazý | bazı | There are already existing. |
26 | bazı | ||
27 | başkası | ||
28 | baţka | başka | |
29 | belki | ||
30 | ben | ||
31 | benden | ||
32 | beni | ||
33 | benim | ||
34 | beri | ||
35 | beriki | ||
36 | beþ | beş | There are already existing. |
37 | beş | ||
38 | beţ | beş | There are already existing. |
39 | bilcümle | ||
40 | bile | ||
41 | bin | ||
42 | binaen | ||
43 | binaenaleyh | ||
44 | bir | ||
45 | biraz | ||
46 | birazdan | ||
47 | birbiri | ||
48 | birden | ||
49 | birdenbire | ||
50 | biri | ||
51 | birice | ||
52 | birileri | ||
53 | birisi | ||
54 | birkaç | ||
55 | birkaçı | ||
56 | birkez | ||
57 | birlikte | ||
58 | birçok | ||
59 | birçoğu | ||
60 | birþey | birşey | There are already existing. |
61 | birþeyi | birşeyi | There are already existing. |
62 | birşey | ||
63 | birşeyi | ||
64 | birţey | birşey | |
65 | bitevi | ||
66 | biteviye | ||
67 | bittabi | ||
68 | biz | ||
69 | bizatihi | ||
70 | bizce | ||
71 | bizcileyin | ||
72 | bizden | ||
73 | bize | ||
74 | bizi | ||
75 | bizim | ||
76 | bizimki | ||
77 | bizzat | ||
78 | boşuna | ||
79 | bu | ||
80 | buna | ||
81 | bunda | ||
82 | bundan | ||
83 | bunlar | ||
84 | bunları | ||
85 | bunların | ||
86 | bunu | ||
87 | bunun | ||
88 | buracıkta | ||
89 | burada | ||
90 | buradan | ||
91 | burası | ||
92 | böyle | ||
93 | böylece | ||
94 | böylecene | ||
95 | böylelikle | ||
96 | böylemesine | ||
97 | böylesine | ||
98 | büsbütün | ||
99 | bütün | ||
100 | cuk | ||
101 | cümlesi | ||
102 | da | ||
103 | daha | ||
104 | dahi | ||
105 | dahil | ||
106 | dahilen | ||
107 | daima | ||
108 | dair | ||
109 | dayanarak | ||
110 | de | ||
111 | defa | ||
112 | dek | ||
113 | demin | ||
114 | demincek | ||
115 | deminden | ||
116 | denli | ||
117 | derakap | ||
118 | derhal | ||
119 | derken | ||
120 | deđil | değil | There are already existing. |
121 | değil | ||
122 | değin | ||
123 | diye | ||
124 | diđer | diğer | There are already existing. |
125 | diğer | ||
126 | diğeri | ||
127 | doksan | ||
128 | dokuz | ||
129 | dolayı | ||
130 | dolayısıyla | ||
131 | doğru | ||
132 | dört | ||
133 | edecek | ||
134 | eden | ||
135 | ederek | ||
136 | edilecek | ||
137 | ediliyor | ||
138 | edilmesi | ||
139 | ediyor | ||
140 | elbet | ||
141 | elbette | ||
142 | elli | ||
143 | emme | ||
144 | en | ||
145 | enikonu | ||
146 | epey | ||
147 | epeyce | ||
148 | epeyi | ||
149 | esasen | ||
150 | esnasında | ||
151 | etmesi | ||
152 | etraflı | ||
153 | etraflıca | ||
154 | etti | ||
155 | ettiği | ||
156 | ettiğini | ||
157 | evleviyetle | ||
158 | evvel | ||
159 | evvela | ||
160 | evvelce | ||
161 | evvelden | ||
162 | evvelemirde | ||
163 | evveli | ||
164 | eđer | eder | |
165 | eğer | ||
166 | fakat | ||
167 | filanca | ||
168 | gah | ||
169 | gayet | ||
170 | gayetle | ||
171 | gayri | ||
172 | gayrı | ||
173 | gelgelelim | ||
174 | gene | ||
175 | gerek | ||
176 | gerçi | ||
177 | geçende | ||
178 | geçenlerde | ||
179 | gibi | ||
180 | gibilerden | ||
181 | gibisinden | ||
182 | gine | ||
183 | göre | ||
184 | gırla | ||
185 | hakeza | ||
186 | halbuki | ||
187 | halen | ||
188 | halihazırda | ||
189 | haliyle | ||
190 | handiyse | ||
191 | hangi | ||
192 | hangisi | ||
193 | hani | ||
194 | hariç | ||
195 | hasebiyle | ||
196 | hasılı | ||
197 | hatta | ||
198 | hele | ||
199 | hem | ||
200 | henüz | ||
201 | hep | ||
202 | hepsi | ||
203 | her | ||
204 | herhangi | ||
205 | herkes | ||
206 | herkesin | ||
207 | hiç | ||
208 | hiçbir | ||
209 | hiçbiri | ||
210 | hoş | ||
211 | hulasaten | ||
212 | iken | ||
213 | iki | ||
214 | ila | ||
215 | ile | ||
216 | ilen | ||
217 | ilgili | ||
218 | ilk | ||
219 | illa | ||
220 | illaki | ||
221 | imdi | ||
222 | indinde | ||
223 | inen | ||
224 | insermi | ||
225 | ise | ||
226 | ister | ||
227 | itibaren | ||
228 | itibariyle | ||
229 | itibarıyla | ||
230 | iyi | ||
231 | iyice | ||
232 | iyicene | ||
233 | için | ||
234 | iş | ||
235 | işte | ||
236 | iţte | işte | There are already existing. |
237 | kadar | ||
238 | kaffesi | ||
239 | kah | ||
240 | kala | ||
241 | kanýmca | kanımca | |
242 | karşın | ||
243 | katrilyon | ||
244 | kaynak | ||
245 | kaçı | ||
246 | kelli | ||
247 | kendi | ||
248 | kendilerine | ||
249 | kendini | ||
250 | kendisi | ||
251 | kendisine | ||
252 | kendisini | ||
253 | kere | ||
254 | kez | ||
255 | keza | ||
256 | kezalik | ||
257 | keşke | ||
258 | keţke | keşke | There are already existing. |
259 | ki | ||
260 | kim | ||
261 | kimden | ||
262 | kime | ||
263 | kimi | ||
264 | kimisi | ||
265 | kimse | ||
266 | kimsecik | ||
267 | kimsecikler | ||
268 | külliyen | ||
269 | kýrk | kırk | There are already existing. |
270 | kýsaca | kısaca | There are already existing. |
271 | kırk | ||
272 | kısaca | ||
273 | lakin | ||
274 | leh | ||
275 | lütfen | ||
276 | maada | ||
277 | madem | ||
278 | mademki | ||
279 | mamafih | ||
280 | mebni | ||
281 | međer | meğer | There are already existing. |
282 | meğer | ||
283 | meğerki | ||
284 | meğerse | ||
285 | milyar | ||
286 | milyon | ||
287 | mu | ||
288 | mü | ||
289 | mý | mı | There are already existing. |
290 | mı | ||
291 | nasýl | nasıl | There are already existing. |
292 | nasıl | ||
293 | nasılsa | ||
294 | nazaran | ||
295 | naşi | ||
296 | ne | ||
297 | neden | ||
298 | nedeniyle | ||
299 | nedenle | ||
300 | nedense | ||
301 | nerde | ||
302 | nerden | ||
303 | nerdeyse | ||
304 | nere | ||
305 | nerede | ||
306 | nereden | ||
307 | neredeyse | ||
308 | neresi | ||
309 | nereye | ||
310 | netekim | ||
311 | neye | ||
312 | neyi | ||
313 | neyse | ||
314 | nice | ||
315 | nihayet | ||
316 | nihayetinde | ||
317 | nitekim | ||
318 | niye | ||
319 | niçin | ||
320 | o | ||
321 | olan | ||
322 | olarak | ||
323 | oldu | ||
324 | olduklarını | ||
325 | oldukça | ||
326 | olduğu | ||
327 | olduğunu | ||
328 | olmadı | ||
329 | olmadığı | ||
330 | olmak | ||
331 | olması | ||
332 | olmayan | ||
333 | olmaz | ||
334 | olsa | ||
335 | olsun | ||
336 | olup | ||
337 | olur | ||
338 | olursa | ||
339 | oluyor | ||
340 | on | ||
341 | ona | ||
342 | onca | ||
343 | onculayın | ||
344 | onda | ||
345 | ondan | ||
346 | onlar | ||
347 | onlardan | ||
348 | onlari | onları | There are already existing. |
349 | onlarýn | onların | |
350 | onları | ||
351 | onların | ||
352 | onu | ||
353 | onun | ||
354 | oracık | ||
355 | oracıkta | ||
356 | orada | ||
357 | oradan | ||
358 | oranca | ||
359 | oranla | ||
360 | oraya | ||
361 | otuz | ||
362 | oysa | ||
363 | oysaki | ||
364 | pek | ||
365 | pekala | ||
366 | peki | ||
367 | pekçe | ||
368 | peyderpey | ||
369 | rağmen | ||
370 | sadece | ||
371 | sahi | ||
372 | sahiden | ||
373 | sana | ||
374 | sanki | ||
375 | sekiz | ||
376 | seksen | ||
377 | sen | ||
378 | senden | ||
379 | seni | ||
380 | senin | ||
381 | siz | ||
382 | sizden | ||
383 | sizi | ||
384 | sizin | ||
385 | sonra | ||
386 | sonradan | ||
387 | sonraları | ||
388 | sonunda | ||
389 | tabii | ||
390 | tam | ||
391 | tamam | ||
392 | tamamen | ||
393 | tamamıyla | ||
394 | tarafından | ||
395 | tek | ||
396 | trilyon | ||
397 | tüm | ||
398 | var | ||
399 | vardı | ||
400 | vasıtasıyla | ||
401 | ve | ||
402 | velev | ||
403 | velhasıl | ||
404 | velhasılıkelam | ||
405 | veya | ||
406 | veyahut | ||
407 | ya | ||
408 | yahut | ||
409 | yakinen | ||
410 | yakında | ||
411 | yakından | ||
412 | yakınlarda | ||
413 | yalnız | ||
414 | yalnızca | ||
415 | yani | ||
416 | yapacak | ||
417 | yapmak | ||
418 | yaptı | ||
419 | yaptıkları | ||
420 | yaptığı | ||
421 | yaptığını | ||
422 | yapılan | ||
423 | yapılması | ||
424 | yapıyor | ||
425 | yedi | ||
426 | yeniden | ||
427 | yenilerde | ||
428 | yerine | ||
429 | yetmiþ | yetmiş | There are already existing. |
430 | yetmiş | ||
431 | yetmiţ | yetmiş | There are already existing. |
432 | yine | ||
433 | yirmi | ||
434 | yok | ||
435 | yoksa | ||
436 | yoluyla | ||
437 | yüz | ||
438 | yüzünden | ||
439 | zarfında | ||
440 | zaten | ||
441 | zati | ||
442 | zira | ||
443 | çabuk | ||
444 | çabukça | ||
445 | çeşitli | ||
446 | çok | ||
447 | çokları | ||
448 | çoklarınca | ||
449 | çokluk | ||
450 | çoklukla | ||
451 | çokça | ||
452 | çoğu | ||
453 | çoğun | ||
454 | çoğunca | ||
455 | çoğunlukla | ||
456 | çünkü | ||
457 | öbür | ||
458 | öbürkü | ||
459 | öbürü | ||
460 | önce | ||
461 | önceden | ||
462 | önceleri | ||
463 | öncelikle | ||
464 | öteki | ||
465 | ötekisi | ||
466 | öyle | ||
467 | öylece | ||
468 | öylelikle | ||
469 | öylemesine | ||
470 | öz | ||
471 | üzere | ||
472 | üç | ||
473 | þey | şey | There are already existing. |
474 | þeyden | şeyden | There are already existing. |
475 | þeyi | şeyi | There are already existing. |
476 | þeyler | şeyler | There are already existing. |
477 | þu | şu | There are already existing. |
478 | þuna | şuna | There are already existing. |
479 | þunda | şunda | There are already existing. |
480 | þundan | şundan | There are already existing. |
481 | þunu | şunu | There are already existing. |
482 | şayet | ||
483 | şey | ||
484 | şeyden | ||
485 | şeyi | ||
486 | şeyler | ||
487 | şu | ||
488 | şuna | ||
489 | şuncacık | ||
490 | şunda | ||
491 | şundan | ||
492 | şunlar | ||
493 | şunları | ||
494 | şunu | ||
495 | şunun | ||
496 | şura | ||
497 | şuracık | ||
498 | şuracıkta | ||
499 | şurası | ||
500 | şöyle | ||
501 | ţayet | şayet | There are already existing. |
502 | ţimdi | şimdi | |
503 | ţu | şu | There are already existing. |
504 | ţöyle | şöyle | There are already existing. |
Great, I will fix those.
OK, now looks like:
> stopwords("tr", source = "stopwords-iso")
[1] "acaba" "acep" "açıkça" "açıkçası" "adamakıllı" "adeta"
[7] "ait" "altı" "altmış" "ama" "amma" "anca"
[13] "ancak" "arada" "artık" "aslında" "aynen" "ayrıca"
[19] "az" "bana" "bari" "başka" "başkası" "bazen"
[25] "bazı" "belki" "ben" "benden" "beni" "benim"
[31] "beri" "beriki" "beş" "bilcümle" "bile" "bin"
[37] "binaen" "binaenaleyh" "bir" "biraz" "birazdan" "birbiri"
[43] "birçoğu" "birçok" "birden" "birdenbire" "biri" "birice"
[49] "birileri" "birisi" "birkaç" "birkaçı" "birkez" "birlikte"
[55] "birşey" "birşey" "birşeyi" "bitevi" "biteviye" "bittabi"
[61] "biz" "bizatihi" "bizce" "bizcileyin" "bizden" "bize"
[67] "bizi" "bizim" "bizimki" "bizzat" "boşuna" "böyle"
[73] "böylece" "böylecene" "böylelikle" "böylemesine" "böylesine" "bu"
[79] "buna" "bunda" "bundan" "bunlar" "bunları" "bunların"
[85] "bunu" "bunun" "buracıkta" "burada" "buradan" "burası"
[91] "büsbütün" "bütün" "çabuk" "çabukça" "çeşitli" "çoğu"
[97] "çoğun" "çoğunca" "çoğunlukla" "çok" "çokça" "çokları"
[103] "çoklarınca" "çokluk" "çoklukla" "cuk" "cümlesi" "çünkü"
[109] "da" "daha" "dahi" "dahil" "dahilen" "daima"
[115] "dair" "dayanarak" "de" "defa" "değil" "değin"
[121] "dek" "demin" "demincek" "deminden" "denli" "derakap"
[127] "derhal" "derken" "diğer" "diğeri" "diye" "doğru"
[133] "doksan" "dokuz" "dolayı" "dolayısıyla" "dört" "edecek"
[139] "eden" "eder" "ederek" "edilecek" "ediliyor" "edilmesi"
[145] "ediyor" "eğer" "elbet" "elbette" "elli" "emme"
[151] "en" "enikonu" "epey" "epeyce" "epeyi" "esasen"
[157] "esnasında" "etmesi" "etraflı" "etraflıca" "etti" "ettiği"
[163] "ettiğini" "evleviyetle" "evvel" "evvela" "evvelce" "evvelden"
[169] "evvelemirde" "evveli" "fakat" "filanca" "gah" "gayet"
[175] "gayetle" "gayri" "gayrı" "geçende" "geçenlerde" "gelgelelim"
[181] "gene" "gerçi" "gerek" "gibi" "gibilerden" "gibisinden"
[187] "gine" "gırla" "göre" "hakeza" "halbuki" "halen"
[193] "halihazırda" "haliyle" "handiyse" "hangi" "hangisi" "hani"
[199] "hariç" "hasebiyle" "hasılı" "hatta" "hele" "hem"
[205] "henüz" "hep" "hepsi" "her" "herhangi" "herkes"
[211] "herkesin" "hiç" "hiçbir" "hiçbiri" "hoş" "hulasaten"
[217] "için" "iken" "iki" "ila" "ile" "ilen"
[223] "ilgili" "ilk" "illa" "illaki" "imdi" "indinde"
[229] "inen" "insermi" "iş" "ise" "işte" "ister"
[235] "itibaren" "itibariyle" "itibarıyla" "iyi" "iyice" "iyicene"
[241] "kaçı" "kadar" "kaffesi" "kah" "kala" "kanımca"
[247] "karşın" "katrilyon" "kaynak" "kelli" "kendi" "kendilerine"
[253] "kendini" "kendisi" "kendisine" "kendisini" "kere" "keşke"
[259] "kez" "keza" "kezalik" "ki" "kim" "kimden"
[265] "kime" "kimi" "kimisi" "kimse" "kimsecik" "kimsecikler"
[271] "kırk" "kısaca" "külliyen" "lakin" "leh" "lütfen"
[277] "maada" "madem" "mademki" "mamafih" "mebni" "meğer"
[283] "meğerki" "meğerse" "milyar" "milyon" "mı" "mu"
[289] "mü" "naşi" "nasıl" "nasılsa" "nazaran" "ne"
[295] "neden" "nedeniyle" "nedenle" "nedense" "nerde" "nerden"
[301] "nerdeyse" "nere" "nerede" "nereden" "neredeyse" "neresi"
[307] "nereye" "netekim" "neye" "neyi" "neyse" "nice"
[313] "niçin" "nihayet" "nihayetinde" "nitekim" "niye" "o"
[319] "öbür" "öbürkü" "öbürü" "olan" "olarak" "oldu"
[325] "olduğu" "olduğunu" "oldukça" "olduklarını" "olmadı" "olmadığı"
[331] "olmak" "olması" "olmayan" "olmaz" "olsa" "olsun"
[337] "olup" "olur" "olursa" "oluyor" "on" "ona"
[343] "onca" "önce" "önceden" "önceleri" "öncelikle" "onculayın"
[349] "onda" "ondan" "onlar" "onlardan" "onları" "onların"
[355] "onların" "onu" "onun" "oracık" "oracıkta" "orada"
[361] "oradan" "oranca" "oranla" "oraya" "öteki" "ötekisi"
[367] "otuz" "öyle" "öylece" "öylelikle" "öylemesine" "oysa"
[373] "oysaki" "öz" "pek" "pekala" "pekçe" "peki"
[379] "peyderpey" "rağmen" "sadece" "sahi" "sahiden" "sana"
[385] "sanki" "şayet" "sekiz" "seksen" "sen" "senden"
[391] "seni" "senin" "şey" "şeyden" "şeyi" "şeyler"
[397] "şimdi" "siz" "sizden" "sizi" "sizin" "sonra"
[403] "sonradan" "sonraları" "sonunda" "şöyle" "şu" "şuna"
[409] "şuncacık" "şunda" "şundan" "şunlar" "şunları" "şunu"
[415] "şunun" "şura" "şuracık" "şuracıkta" "şurası" "tabii"
[421] "tam" "tamam" "tamamen" "tamamıyla" "tarafından" "tek"
[427] "trilyon" "tüm" "üç" "üzere" "var" "vardı"
[433] "vasıtasıyla" "ve" "velev" "velhasıl" "velhasılıkelam" "veya"
[439] "veyahut" "ya" "yahut" "yakinen" "yakında" "yakından"
[445] "yakınlarda" "yalnız" "yalnızca" "yani" "yapacak" "yapılan"
[451] "yapılması" "yapıyor" "yapmak" "yaptı" "yaptığı" "yaptığını"
[457] "yaptıkları" "yedi" "yeniden" "yenilerde" "yerine" "yetmiş"
[463] "yine" "yirmi" "yok" "yoksa" "yoluyla" "yüz"
[469] "yüzünden" "zarfında" "zaten" "zati" "zira"
@kbenoit, great job.
Now I have nothing on my mind. But is it possible to add new words to this list in the future? Of course, without exhausting you.
Thank you for your interest and effort.
Greetings...
stopwords("tr", source = "stopwords-iso")
In R, I still see the characters mis-encoded and have 498 words. Is this normal?
Did you install the PR branch?
devtools::install_github(“quanteda/stopwords”, ref = “fix-tr”)
@kbenoit, It was a good cooperation and experience. Thanks for everything.
"Turkish Stopwords" now seems to be properly encoded.
library(devtools) devtools::install_github("quanteda/stopwords", ref = "fix-tr") stopwords("tr", source = "stopwords-iso")
I wish you success in your work. Greetings..
Fix the mis-encoded "ı" character from some words in Turkish.
Fixes #15.
Now looks like: