giellalt / shared-smi

Shared Sámi lexical resources
GNU General Public License v3.0
2 stars 0 forks source link

all_langs: punctuation.lexc ( #10

Closed albbas closed 5 years ago

albbas commented 6 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2475

Date: 2018-05-08T09:41:15+02:00 From: Lene Antonsen <> To: Sjur Nørstebø Moshagen <> CC: elena.j.paulsen, lene.antonsen, linda.wiechetek, maja.l.kappfjell, sjur.n.moshagen, thomas.omma, trond.trosterud

Depends on: #2523, #2525, #2526 Blocker for: #2524 Last updated: 2019-03-13T22:38:49+01:00

albbas commented 6 years ago

Comment 12792

Date: 2018-05-08 09:41:15 +0200 From: Lene Antonsen <>

Vi har snakket om dette på møte, men jeg lager bz fordi jeg regner med at det blir en del testing og diskusjon om løsninger. Ikke minst så må vi nok for de forskjellig språkene tilpasse fortsettelsesleksikonene for numeraler.

Jeg har sjekket inn i all_langs/src/morphology/stems : arabic_roman_digits.lexc og punctuation.lexc

Disse skal legges inn i bygginga for de samiske språkene (alle språk?):

punctuation.lexc istedenfor lokal punctuation.lexc arabic_roman_digits.lexc i tillegg til numerals.lexc

Arabiske og romertall må så fjernes fra lokale numerals.lexc (ikke kasus-leksikoner).

Det er en bra om dette arbeidet kan bli gjort nokså snart, fordi vi arbeider med syntaktisk analyse for sma, og numerals.lexc for sma mangler mye av det vi har bygd opp i sme. Burde vi kopiere fra sme til sma som en foreløpig løsning?

albbas commented 6 years ago

Comment 12806

Date: 2018-05-08 23:39:06 +0200 From: Lene Antonsen <>

Forslag: en felles liste over acronymer som er propernouns (dvs NATO osv). Kanskje vi kunne legge dem i smi-propernouns (men til ACRO-leksikoner)?

albbas commented 6 years ago

Comment 12958

Date: 2018-09-13 13:07:08 +0200 From: Sjur Nørstebø Moshagen <>

No har eg endra bygginga for dei aller fleste språka til å nytta felles punctuation.lexc. Det er nokre unnatak:

Sjå kommentarar i loggmeldinga for innsjekkingane 170813, 170820 og 170821.

albbas commented 6 years ago

Comment 12959

Date: 2018-09-14 08:56:07 +0200 From: Sjur Nørstebø Moshagen <>

For å gjera diskusjonen her lettare, her er det sentrale eg skreiv i dei innsjekkingsmeldingane:

Språk med avvikande punktteiknsfil:

startup-langs/: epo, grn, hin, iku, tel, tgl

langs/: ciw, ipk, nio, som, udm, vep

Alle desse språka har korte filer, med eit veldig lite utval teikn, og med heilt andre tæggar enn andre språk. Er det ein sakleg grunn til det, eller er det berre dårleg arv? Dersom det er det siste, så er det berre å hiva ut dei gamle filene, og peika til fellesfila. Peikaren ligg allereie i make-fila, men utkommentert.

Trond, kan du sjå på dette? Det er truleg du som kjenner til desse filene.

Når det gjeld finsk og samiske smX-språk, så er det viktigaste alt nemnt i den førre merknaden.

albbas commented 5 years ago

Comment 12966

Date: 2018-09-21 12:51:03 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Sjur Nørstebø Moshagen from comment #3)

Språk med avvikande punktteiknsfil:

startup-langs/: epo, grn, hin, iku, tel, tgl

langs/: ciw, ipk, nio, som, udm, vep [...] Trond, kan du sjå på dette? Det er truleg du som kjenner til desse filene.

Vi prata om det på møte tidlegare i veka, og vart samde om at eg ryddar opp i dei. Det er gjort i og med innsjekkinga i rev. 171131.

Då er det berre dei samiske språka som står att. Dei vart òg prata om på møtet, og dei krev litt meir arbeid. Kjem etter kvart.

albbas commented 5 years ago

Comment 13062

Date: 2018-10-24 19:43:02 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Sjur Nørstebø Moshagen from comment #4)

Då er det berre dei samiske språka som står att. Dei vart òg prata om på møtet, og dei krev litt meir arbeid. Kjem etter kvart.

SMS og SMA er ordna, og over på ny felles punctuation-fil. Det som står att no er SME, SMJ og SMN.

albbas commented 5 years ago

Comment 13063

Date: 2018-10-25 09:09:17 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Sjur Nørstebø Moshagen from comment #5)

Det som står att no er SME, SMJ og SMN.

Dette er dei ekte Konrad Nielsen-språka, dvs dei treng eit KN-symbol intenrnt. Det beste er å byta til eit anna symbol, slik at enkel apostrof kan få vera seg sjølv. Eg føreslår at vi byter til:

º

Døme:

jođáhat+Sem/Dummytag:jođáhahºk JOHTOLAT ;

Argument for:

Argument mot:

Andre alternative symbol:

† - jođáhah†k:

• - jođáhah•k:

Alle tre forslaga har same plassering på det norske og finske tastaturet. MEN: INGEN av dei kan skrivast med dei samiske tastatura.

Synspunkt? Andre forslag?

albbas commented 5 years ago

Comment 13064

Date: 2018-10-25 16:03:42 +0200 From: Sjur Nørstebø Moshagen <>

Ingen kommentarar?

(In reply to Sjur Nørstebø Moshagen from comment #6)

º - jođáhahºk † - jođáhah†k • - jođáhah•k

Eg vil gjerne få unna dette her så fort som råd, så vi kan gå vidare med andre ting.

Eg hadde tenkt å føreslå • pga utsjånaden, men så kom eg på at det jo er eit punktteikn, så det går ikkje. Det same gjeld potensielt † og ‡ (dei er ikkje med i punktfila no, men om dei skal med i analysatoren, så er det rimeleg å leggja dei der).

Då er det anten º eller eit heilt anna teikn som gjeld. Dei aller fleste andre alternativa vil vera utanfor Latin1, og vil dermed vera vanskelege å skriva, så då blir det klypp og lim i staden.

Her er nokre forslag - men desse er alle punktteikn i Unicode, og er dermed problematiske:

′ - PRIME / U+2032 ″ - DOUBLE PRIME / U+2033 ‵ - REVERSED PRIME / U+2035 ‶ - REVERSED DOUBLE PRIME / U+2036

Forslag frå matematiske symbol:

⌠ - TOP HALF INTEGRAL / U+2320 ⊤ - DOWN TACK / U+22A4 ⊺ - INTERCALATE / U+22BA

Kom gjerne med andre forslag!

Synspunkt før lunsj i morgon, deretter set eg i gang med endringa.

albbas commented 5 years ago

Comment 13065

Date: 2018-10-25 16:08:15 +0200 From: Maja Lisa Kappfjell <>

Heisann!

Jeg har ingen mening, da dette lite gjelder sma.

Maja

albbas commented 5 years ago

Comment 13066

Date: 2018-10-25 16:16:09 +0200 From: Lene Antonsen <>

Jeg foretrekker º

Flott at du fikser dette.

albbas commented 5 years ago

Comment 13067

Date: 2018-10-25 17:47:48 +0200 From: Trond Trosterud <>

Eg er samd med Lene, på begge punkt.

albbas commented 5 years ago

Comment 13068

Date: 2018-10-25 18:27:11 +0200 From: Sjur Nørstebø Moshagen <>

Før vi bestemmer oss, så er det ein opplagt kandidat vi/eg har gløymt:

ʹ - MODIFIER LETTER PRIME

Dømet eg har brukt tidlegare vil då bli sjåande slik ut:

ʹ - jođáhahʹk

Skilnaden mellom SMS og dei andre språka som bruker KN blir då at SMS har han synleg, medan SM[EJN] berre har han til intern bruk. Men kanskje eg tek feil når det gjeld bruken i SMS.

Uansett - kva synest de om dette forslaget?

albbas commented 5 years ago

Comment 13069

Date: 2018-10-25 21:16:03 +0200 From: Trond Trosterud <>

Dette var ei overraskande vending. For balansen si skuld, her er eit par innvendingar:

albbas commented 5 years ago

Comment 13070

Date: 2018-10-26 07:57:54 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Trond Trosterud from comment #12)

Dette var ei overraskande vending.

Det mest overraskande etter mitt syn er at ingen har kome med dette forslaget tidlegare :-)

For balansen si skuld, her er eit par innvendingar:

  • Bokstven er PRIME (dvs. aksenten står på skrå), mens KN sitt teikn sto rett opp og ned)

Og kva då med º ;)

Eg trur det er ein fordel at han liknar ganske mykje (det med at han skal vera lik er ikkje noko poeng).

  • Det kan vere ei ulempe at vi brukar eit teikn som skal vere synleg med eitt som ikkje skal vere det. Rett nok gjeld dette ulike språk, men vi har ein del språkuavhengig prosessering, og ein del kontekstar der språka er blanda. Såpnn sett er det tryggare å ha eit teikn som ingen nokon sinne skal sjå.

Eg er usamd. Tvert i mot trur eg at det er ein fordel at vi nyttar same teikn for same fenomen (atterhald ein gong til: eg kan ikkje nok om SMS til å seia at det faktisk er det same, eg berre trur det). Skilnaden i synleg/ikkje-synleg er ein enkel twolc-definisjon:

SMS: ʹ:ʹ

SME/SMJ: ʹ:0

Og dersom det skulle vera ulike funksjonar med dette teiknet i SMS vs KN i SME/SMJ så er det jo framleis ein triviell sak å endra ʹ til noko anna for smi-propernouns.lexc (det er berre 10 oppføringar som har KN-teiknet).

Stoda no er altså:

' - jođáhah'k - apostrof, slik det er no (og som vi ikkje kan ha) ʹ - jođáhahʹk - modifier letter prime º - jođáhahºk - masculine ordinal indicator

Elles så finst det ei stor mengde andre modifier letter å ta av, inklusive 'modifier letter vertical line', som ser ut som KN-teiknet. Men det kan vera eit poeng å halda seg til det same som SMS, og det kan òg vera eit poeng å ha noko som visuelt er noko ulikt vanleg apostrof, slik at ein lettare kan sjå feilkoding i lexc.

Kva synest de?

albbas commented 5 years ago

Comment 13071

Date: 2018-10-26 09:00:52 +0200 From: Lene Antonsen <>

Her er oppføringene med KN i smi-prop.:

Erke+OLang/UND:Er'ke ACCRA-mal ; Marda+OLang/NOB:Mar'da ACCRA-plc ; Siskind+OLang/NOB:Siskin'd9 BERN-sur ; Lappekodicilla+OLang/UND:Lappe#kodicil'la ACCRA-obj ; Lappekodisilla+OLang/UND:Lappe#kodisil'la ACCRA-obj ; eNorga+OLang/UND:e#Nor'ga ACCRA-org ; eSkuvla+OLang/UND:e#Skuv'la ACCRA-org ; Ædnansærvi+OLang/UND:Ædnan#sær'v PIPPI-org ; Meahcce-Vulle+OLang/UND:Meahcce-Vul'le ACCRA-mal ;

Slik som jeg har forstått det, så skal samiske nsvn, dvs for sme, navn med stadieveksling, være i sme-proper-file?

Meahcce-Vulle eNorga eSkuvla Lappekodicilla og Lappekodisilla er sme-navn , Siskind og Marda kjenner jeg ikke

Stadievekslinga fungerer heller ikke for noen av disse.

Ædnansærvi mener jeg ikke skal ha "moderne" stadieveksling, men evt heller KN i ortografien, hvis det skal ha noe.

albbas commented 5 years ago

Comment 13072

Date: 2018-10-26 09:07:35 +0200 From: Lene Antonsen <>

Erke bruker som etternavn, og da uten stadieveksling? Det bør ihvertfall ha en +Sem/Sur Som fornavn vet brukes det med stadieveksling, og burde da stå i sme-fila.

albbas commented 5 years ago

Comment 13073

Date: 2018-10-26 09:59:35 +0200 From: Sjur Nørstebø Moshagen <>

Eg er samd med dei siste to innlegga til Lene, og det betyr i praksis at dei nemnde namna bør flyttast på eller endrast på.

Thomas, kan du gjera det?

Det betyr òg at KN aldri skal stå i smi-fila, og dermed er ikkje dette teiknet eit problem med tanke på felles ressursar.

Synspunkt på ʹ vs º?

albbas commented 5 years ago

Comment 13074

Date: 2018-10-26 11:13:43 +0200 From: Thomas Omma <>

k!

(In reply to Sjur Nørstebø Moshagen from comment #16)

Eg er samd med dei siste to innlegga til Lene, og det betyr i praksis at dei nemnde namna bør flyttast på eller endrast på.

Thomas, kan du gjera det?

Det betyr òg at KN aldri skal stå i smi-fila, og dermed er ikkje dette teiknet eit problem med tanke på felles ressursar.

Synspunkt på ʹ vs º?

albbas commented 5 years ago

Comment 13075

Date: 2018-10-29 10:43:48 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to Sjur Nørstebø Moshagen from comment #16)

Det betyr òg at KN aldri skal stå i smi-fila, og dermed er ikkje dette teiknet eit problem med tanke på felles ressursar.

Synspunkt på ʹ vs º?

Etter ulike diskusjonar med Lene og Trond ser det ut til at toppkandidaten no er º. Eg byrjar med denne, og så ser vi kor bra det fungerer. Om det ikkje fungerer så bra, så vil det vera lettare å byta til noko anna etterpå, då ' og '7 ikkje lenger bruker same teikn.

albbas commented 5 years ago

Comment 13082

Date: 2018-11-05 09:05:35 +0100 From: Sjur Nørstebø Moshagen <>

Denne lusmeldinga gjeld i praksis berre punctuation.lexc, og eg har laga ei eiga overordna lusmelding som dekkjer alt. I tillegg har eg laga eigne underlusmeldingar for dei tre språka som står att: SMN, SME og SMJ.

Eg endrar tittelen på denne meldinga slik ha han speglar innhaldet.

albbas commented 5 years ago

Comment 13090

Date: 2018-11-06 10:22:56 +0100 From: Thomas Omma <>

giella-shared $ svn ci -m "away with konrad nielsens from this file, bug2475" Sending smi/src/morphology/stems/smi-propernouns.lexc Transmitting file data .done Committing transaction... Committed revision 173458.

albbas commented 5 years ago

Comment 13212

Date: 2019-03-13 22:38:49 +0100 From: Sjur Nørstebø Moshagen <>

Denne er fiksa no.