miglen / bulgarian-wordlists

Bulgarian wordlists (списък с думи на Български език)
GNU General Public License v3.0
84 stars 16 forks source link

Да се направи извадка на лексикалната база от данни на БАН #1

Open miglen opened 6 years ago

miglen commented 6 years ago

Източник: http://ibl.bas.bg/lib/ База: http://ibl.bas.bg/leksikalna-baza-danni/ Неологизми: http://ibl.bas.bg/infolex/neologisms.php

miglen commented 6 years ago

Нелогозими:

python3 - <<-EOF
import re
import requests
bg_alphabet = "абвгдежзийклмнопрстуфхцчшщъыюя"
for word in bg_alphabet:
  r = requests.post("http://ibl.bas.bg/infolex/neologisms.php", data={'search_param': 'all', 'word': word})
  neologisms = re.findall(r'<dt>[0-9]{1,5}\. (.+?) <small>', r.text)
  for neolog in neologisms:
    print(neolog)
EOF
miglen commented 6 years ago

Фразеологизми: http://ibl.bas.bg/infolex/idioms.php

python3 - <<-EOF
import re
import requests
bg_alphabet = "абвгдежзийклмнопрстуфхцчшщъыюя"
for word in bg_alphabet:
  r = requests.post("http://ibl.bas.bg/infolex/idioms.php", data={'search_param': 'all', 'word': word})
  all_idioms = re.findall(r'<br\/><dt>[0-9]{1,5}\. (.+?)<\/dt><dd>', r.text)
  for idiom in all_idioms:
    sub_idioms = re.findall(r'(\w+)', idiom.lower())
    for sub_idiom in sub_idioms:
      if len(sub_idiom) >= 3:
        print(sub_idiom)
EOF