lalsnivts / multimedia_corpus

multimedia corpus by Timofey Arkhangelskiy
1 stars 0 forks source link

Парсинг файла *.eaf: работа с XML #2

Closed gisly closed 8 years ago

gisly commented 8 years ago

Нужно выделить из файла ELAN'а (*.eaf) данные для использования в корпусе.

  1. Прочитать тьюторил по XPATH: http://www.w3schools.com/xsl/xpath_nodes.asp — формат записи пути к элементам в XML
  2. Пройти тьюториал по работе с XML в Python: https://docs.python.org/2/library/xml.etree.elementtree.html#module-xml.etree.ElementTree
  3. Научиться парсить файлы .eaf при помощи Python. Первая задача: программа читает файл .eaf и просто печатает переводы на русский язык
gisly commented 8 years ago

Примеры задач:

На вход программе поступает файл *.eaf принятого у нас формата (например, см. https://github.com/lalsnivts/ket_corpus/blob/master/Kel05_AbdullaevaEP_bear.eaf) https://gist.github.com/gisly/c57c56d4eb0cb2bfec60f9a373615f68 печатает все русские переводы в отдельный файл Вызов: из командной строки python eaf_training.py <файл .eaf> <выходной файл>

  1. Попробовать запустить
  2. Написать аналогичную программу, которая печатала бы в файл оригинальный текст такого файла
gisly commented 8 years ago

done