KohaSuomi / Koha

(KOHA) Koha is a free software integrated library system (ILS). Koha is distributed under the GNU GPL version 3 or later. Note: this is a synced mirror of the official Koha repo.
https://koha-community.org/
GNU General Public License v3.0
7 stars 13 forks source link

RDA-konversio ruotsinkieliselle tekstiaineistolle #1253

Open pknuuti opened 2 months ago

pknuuti commented 2 months ago

Tukipyyntö

Vain ruotsinkielinen tekstiaineisto konvertoidaan ruotsinkielisillä konversiosäännöillä. Tietueet, jotka täyttävät ehdot:

000/06 = a 008/35-37 = swe 041a = swe

Jotain muuta?

No response

johannaraisa commented 2 months ago

Lisäsin säännöt konversiotyökaluun.

johannaraisa commented 2 months ago

Missä kimpassa voin ajaa testin, niin näkee konvertoituuko oikeilla säännöillä?

Kati-Helle commented 2 months ago

Vaikkapa Hellessä.

johannaraisa commented 2 months ago

Vaikkapa Hellessä.

Nyt löytyy välivarastosta uudet tiedostot, ja pitäisi olla ajettu ruotsinkielisillä konversiosäännöillä vain tekstiaineisto. Vielä odotellaan Kansalliskirjastolta päivityksiä konversioon, joten jotakin virheitä vielä varmasti löytyy.

Kati-Helle commented 2 months ago

Hellen testitietueista huomioita

Ruotsinkielisiä konversiosääntöjä vaikuttaisi käytettäneen myös

Kun 000/06=t 008/35-37=swe 041a=swe kuva

Kun 000/06=i 041d=swe 008/35-37=swe kuva

Tämän tietueen 260a-kenttäarvo muodostunut konversiossa suomeksi kuva

Kun 000/06=j 041d=swe 008/35-37=swe kuva

Huom! 336-338-kenttäarvot suomeksi, kun tietueella 000/06=a 008/35-37=swe 041a=swe kuva

Huom! Osa tietueen 336-338-kenttäarvoista konvertoitunut suomesta ruotsiksi, kun tietueella 000/06=a 008/35-37=swe 041a=swe

kuva

kuva

johannaraisa commented 2 months ago

Ajelin tietueet uudestaan, kun huomasin että kontrollikentät oli hävinneet.

Odotellaan vielä Kansalliskirjastoilta korjauksia. Mutta mitä itse katselin, niin tuossa sv-tiedostossa näytti olevan ainoastaan tekstiaineistot ja muut olivat menneet fi-tiedostoon.

Käsittääkseni niissä fi-mäppäyksissä yritetään myös tulkita minkä kielinen aineisto on kyseessä ja siksi siellä taitaa tulla ruotsinkielisiäkin termejä. @AnttHeik korjaa, jos olen väärässä?

AnttHeik commented 2 months ago

Käsittääkseni niissä fi-mäppäyksissä yritetään myös tulkita minkä kielinen aineisto on kyseessä ja siksi siellä taitaa tulla ruotsinkielisiäkin termejä. @AnttHeik korjaa, jos olen väärässä?

Joo, näin on. Mielestäni sen pitäisi tulkita 040b-kentässä olevasta swe-arvosta, että nyt käännetään ruotsiksi kaikki mahdollinen tai mitä nyt järkevästi pystyy kääntämään tai avaamaan. Nyt tuolla on kuitenkin sitten käännösvirheitä sekä suomenkielisessä että ruotsinkielisessä konversiossa. Näihin juuri pyysin korjauksia.

Kati-Helle commented 2 months ago

Kontrollikentät ovat nyt mukana. Esimerkki yhdestä uudelleen konvertoidusta tietueesta: kuva

AnttHeik commented 2 months ago

Kontrollikentät ovat nyt mukana. Esimerkki yhdestä uudelleen konvertoidusta tietueesta:

Hmm, ei näytä ymmärtävän kääntää ruotsiksi tuota 260a-kenttää, vaikka nuo oli korjattu, mutta olikohan se niin vain ruotsinkielisessä konversiossa.

johannaraisa commented 2 months ago

Kontrollikentät ovat nyt mukana. Esimerkki yhdestä uudelleen konvertoidusta tietueesta:

Hmm, ei näytä ymmärtävän kääntää ruotsiksi tuota 260a-kenttää, vaikka nuo oli korjattu, mutta olikohan se niin vain ruotsinkielisessä konversiossa.

Joo, tuo näyttää olevan sellainen jolle on tehty konversio fi-mäppäyksillä.

johannaraisa commented 2 months ago

Näyttää, että noille 336-, 337- ja 338-kentille se yrittää arvata kielen riippumatta mäppäyksestä. Nyt niihin ruotsinkielisiin mäppäyksiin erotellaan vain tekstiaineistot, joten noista muista tulee sekakielisiä.

AnttHeik commented 2 months ago

Näyttää, että noille 336-, 337- ja 338-kentille se yrittää arvata kielen riippumatta mäppäyksestä. Nyt niihin ruotsinkielisiin mäppäyksiin erotellaan vain tekstiaineistot, joten noista muista tulee sekakielisiä.

Jeps, tuo Katin esimerkkitietue näyttää olevan alun perin sekakielinen muutenkin, mutta fi-konversio tajuaa kääntää ruotsin kielelle vain osan kentistä: (336-, 337- ja 338-kentät ja 600c), kun taas pari muuta pysyy suomena (260a ja 700e).

Onko Helle-kimppa muuten ainoa, jossa vanhoilla Finmarcista Marc21:seen konvertoiduilla tietueilla on mukana 040b-kenttä? Ainakaan OUTIssa sitä nimittäin ei ole vanhoilla tietueilla.

AnttHeik commented 2 months ago

Voisitko Johanna ajaa näistä TäTin tietueista erilliset sekä ruotsinkielisen että suomenkielisen konversiotiedostoversion, niin näen miten nuo käyttäytyvät?

1853915 1825979 1846867 1846869 1820880 2363984 2263232 2231394 2391423 1813743 1908787 1858442

johannaraisa commented 2 months ago

Voisitko Johanna ajaa näistä TäTin tietueista erilliset sekä ruotsinkielisen että suomenkielisen konversiotiedostoversion, niin näen miten nuo käyttäytyvät?

1853915 1825979 1846867 1846869 1820880 2363984 2263232 2231394 2391423 1813743 1908787 1858442

Nyt on nämä ajettu kummallakin mäppäyksellä.

johannaraisa commented 2 months ago

Liittyy tikettiin https://github.com/KohaSuomi/Koha/issues/834

AnttHeik commented 2 months ago

Jeps, eli ruotsinkielisessä konversiossa on tällä hetkellä ongelmana se, että joissain tapauksissa 336-kentän termit kääntyvät suomen kielelle, vaikka tietueessa olisi 040b-kentässä arvo swe. Vaikuttaisi siltä, että tätä tapahtuu, jos 336-kenttää on toistettu: kuva

Jos 040b-kenttää ei ole ollenkaan, niin 336-kentässä sama ongelma kaikessa aineistossa: kuva

Näistä on raportoitu Kansalliskirjastollekin.

AnttHeik commented 2 months ago

Mietin vähän noita ISBD-ajan muita ruotsinkielisiä aineistoja, jotka on kuvailtu ruotsin kielellä eli lähinnä äänitteitä ja nuotteja. Mitä Johanna luulet, pystyisikö tätä ruotsinkieliseen mappaykseen mukaan otettavien tietueiden ehtoa muuttamaan alla olevalla tavalla vai olisiko järkevämpi vain lisätä noihin tietueisiin erämuokkauksella 040b-kenttä, jossa kielikoodi swe ja ajaa ne sitten suomisäännöillä?

Eli mukaan tietueet, joissa

000/06 = a 008/35-37 = swe 041a = swe

tai

336a = Musik (notation) tai 336a = Musik (performance) tai 336a = Tal

johannaraisa commented 2 months ago

Mietin vähän noita ISBD-ajan muita ruotsinkielisiä aineistoja, jotka on kuvailtu ruotsin kielellä eli lähinnä äänitteitä ja nuotteja. Mitä Johanna luulet, pystyisikö tätä ruotsinkieliseen mappaykseen mukaan otettavien tietueiden ehtoa muuttamaan alla olevalla tavalla vai olisiko järkevämpi vain lisätä noihin tietueisiin erämuokkauksella 040b-kenttä, jossa kielikoodi swe ja ajaa ne sitten suomisäännöillä?

Eli mukaan tietueet, joissa

000/06 = a 008/35-37 = swe 041a = swe

tai

336a = Musik (notation) tai 336a = Musik (performance) tai 336a = Tal

Mitä itse noita mäppäyksiä katselin, niin se 040$b vaikuttaa lopputulokseen, vaikka pakottaisi ajamaan ruotsinkielisellä. Joten varmaan parempi korjata nuo tietueet erämuokkauksella.

AnttHeik commented 3 days ago

@johannaraisa Nyt on taas päivitetty ruotsinkielisiä konversiosääntöjä, joten ajatko nuo TäTin testitietueet uudestaan?

johannaraisa commented 3 days ago

@johannaraisa Nyt on taas päivitetty ruotsinkielisiä konversiosääntöjä, joten ajatko nuo TäTin testitietueet uudestaan?

Nyt on TäTissä, ja OUTIssa, meni rutiinilla sinne eka.

AnttHeik commented 3 days ago

@johannaraisa Nyt on taas päivitetty ruotsinkielisiä konversiosääntöjä, joten ajatko nuo TäTin testitietueet uudestaan?

Nyt on TäTissä, ja OUTIssa, meni rutiinilla sinne eka.

Jes, kiitokset. Hyvä että ajoit nuo OUTInkin, koska ovat vähän erilaisempia tietueita :)

AnttHeik commented 3 days ago

Nuo TäTin tietueet olivat jostain syystä jakautuneet nyt niin, että kolme meni ruotsinkielisellä ja ilmeisesti 9 suomenkielisillä, koska näyttävät niin oudoilta. Voisitko vielä ajaa kaikki 12 tietuetta uudestaan ruotsinkielisillä? :) Yleisesti ottaen näyttää muuten hyvältä nyt.

kuva

johannaraisa commented 3 days ago

Nuo TäTin tietueet olivat jostain syystä jakautuneet nyt niin, että kolme meni ruotsinkielisellä ja ilmeisesti 9 suomenkielisillä, koska näyttävät niin oudoilta. Voisitko vielä ajaa kaikki 12 tietuetta uudestaan ruotsinkielisillä? :) Yleisesti ottaen näyttää muuten hyvältä nyt.

kuva

Se ruotsinkielisen määritelmähän meni, että halutaan vain tekstiaineisto ajettavan ruotsinkielisellä. Siksi tuo erittelu tulee noihin tiedostoihin.

johannaraisa commented 3 days ago

Tosin minusta nuo Kansalliskirjaston tekemät säännöt yrittää arvailla sen kielen, vaikka ajaisi suomeksikin. En siis ole varma kannattaako noita aineistoja yrittää erotella.

AnttHeik commented 3 days ago

Aivan, niinhän se olikin. Mietin tuota kaiken aineiston ajamista suomenkielisillä säännöillä itsekin, mutta se vaatisi, että kaikissa vanhemmissakin tietueissa on muka 040b-kenttä, jossa arvo 'swe'. Lisäksi suomenkieliset konversiosäännöt eivät ihan täysin toimi, vaikka tuo 040b-kenttä olisikin mukana: kuva

johannaraisa commented 3 days ago

Yritetäänkö ajaa nuo kaikki ruotsinkielisillä ja katsotaan mille näyttää, vai mennäänkö tällä että vain tekstiaineistot?

AnttHeik commented 3 days ago

No voisihan ne ajaa, niin näkee osaako nuo ruotsinkieliset säännöt muitakin aineistoja kuin tekstiaineistot.

johannaraisa commented 3 days ago

Nyt on Tätissä uusi tiedosto, piti poistaa ne vanhat uuden tieltä.

AnttHeik commented 2 days ago

(Kommentoin tänne, kun kyse oli ruotsinkielisistä tietueista) Äh, ei se suomenkielinen konversio vieläkään osannut käsitellä tuota yhtä yllä olevaa tietuetta oikein, vaan osa termeistä kääntyy suomeksi, vaikka pitäisi pysyä ruotsina.

Aloin miettimään, että olisiko lopulta järkevintä vain ajaa ruotsinkielisellä konversiolla kaikki ne tietueet, joissa on 040b-kentän arvo swe eli jos muuttaisi tuota käsittelyehtoa alla olevalla tavalla. Menisiköhän se noin? Yllä oleva ottaisi mukaan ne vanhat tekstiaineistot, joissa ei 040b-kenttää ole, ja alla oleva ehto takaisi sen, että kaikki uudemmat aineistot, joissa on kuvailukieleksi merkitty swe, menisivät ruotsinkielisellä konversiolla (myös nykyiset RDA-tietueet).

000/06 = a 008/35-37 = swe 041a = swe tai 040b = swe