loge-gh / jp-tools

Automatically exported from code.google.com/p/jp-tools
1 stars 0 forks source link

Parse source language information #5

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
Articles sometimes have source language information (examples are not 
exhaustive):

> (фр. adieu) до свидания!, прощай[те]!

> (ит. alto)
> 1) альт, контральто (голос);
> 2) альт (инструмент).

> (кит. цзяоцза) пельмени.

We're to extract it and store in JMDict's <lsource> tag and in appropriate 
EDICT/2 forms:

> <sense>
> <lsource xml:lang="dut">ontembaar</lsource>

Original issue reported on code.google.com by himse...@gmail.com on 9 Apr 2013 at 1:53

GoogleCodeExporter commented 9 years ago

Original comment by himse...@gmail.com on 9 Apr 2013 at 2:00

GoogleCodeExporter commented 9 years ago
Языки -- примеры:
(санскр. Avici)
(из восьми; санскр. Avici и Raurawa) -- две ссылки на 
один язык
(англ. ability)
(фр. absinthe)
(нем. Abend)
(фр. avant guerre) -- два слова через пробел
(англ. baby и яп. たんす【簞笥】) -- два языка через 
"и"
(яп. синтетическое волокно и ткань) -- не язык
(сокр. англ. agitation)
(от англ. agitating point)
(от сокр. англ. identification card)
(амер. сокр. inter-continental ballistic missile)
(англ. ad, сокр. от advertisement) -- хотя бы ловить 
такое!
(лат. alma mater в англ. произношении) -- не 
трогать!
アしきしゅうきゅう【ア式蹴球】 (a — сокр. англ. 
association) -- не трогать!

Список языков:
амер.
англ.
венг.
гол. голл.
  голландский
греч.
исп.
  испанский
ит. итал.
  итальянский
кит.
кор.
 корейский
лат.
малайск.
нем.
португ.
русск.
санскр.
тур.
  турецкий
фр. франц.
  французский
яп.

Original comment by himse...@gmail.com on 9 Apr 2013 at 2:06