spraakbanken / korp-frontend-sb

Configuration files for the Korp frontend
2 stars 1 forks source link

Kubhist behöver använda tidningar.kb.se istället för magasin.kb.se för att visa tumnaglar #2

Open majsan opened 4 years ago

majsan commented 4 years ago

Bildens URL:

https://tidningar.kb.se/2656330/1853-02-12/edition/146134/part/1/page/1_thumb.jpg

Länk till utgåvan:

https://tidningar.kb.se/2656330/1853-02-12/edition/146134/part/1/page/1/

Första siffran 2656330 och edition (146134) bör vara samma för alla texter i en korpus, men vi behöver bygga en mapping från korpusnamn till deras ID-nummer i inställningarna.

Information från Jonas Ahlberg på KB:

Är första siffran (2656330 i exemplet) samma för alla utgåvor inom samma tidning?

Ja, det är Librisnummer för titeln som elektroniska resurs och den ändras aldrig för den individuella titeln.

Sifferkombinationen för tidningen som elektronisk resurs finns i två versioner: dels den sjuställiga sifferkombinationen i exemplet ovan, dels ett nummer med 16 tecken av blandat format (exempelvis: dm9xg65lbq3z8xwh), den senare kombinationen införd i och med nya Libris.

Är "edition" samma för alla utgåvor inom samma tidning? Vad är det?

Nej. Många större titlar har flera editioner och varje edition har ett unikt nummer (i exemplet 146134). Olika editioner kan vara tryckta på olika orter, tryckas under olika tider på dygnet etc. Bilden nedan visar Expressen, som finns representerad med fem olika editioner under samma utgivningsdag, alla med sitt unika editionsnummer.

Vad är "part"? Är det relevant för äldre dagstidningar, fram till 1920 ungefär? Vi verkar inte ha någon information om det i våra korpusar.

Trodde det var tidningsdel, men tydligen inte. Är osäker på vad det betyder i det här sammanhanget. Får alltid upp ” /part/1/” i URL vad jag än söker på.

Bengt.neiss@kb.se är den som antagligen är bäst lämpad att svara på frågan.

”part” är sökvägen till tidningsnumrets filer på disk.

anne17 commented 4 years ago
  1. Det här borde inte vara frontendens jobb utan snarare Sparvs. För Kubhist2 lägger Sparv in denna info.

  2. Frågan är om vi ska lägga tid på gamla Kubhist överhuvudtaget nu när vi har Kubhist2, som innehåller samma tidningar med bättre OCR. Det enda vi förlorar med Kubhist2 är lite metadata som finns i några tidningar (sådant som publikationsfrekvens, årspris, redaktör...).