gbv / k10plus-subjects

Subject analysis of records in K10plus catalogue
0 stars 0 forks source link

Extract most common subject indexing systems #13

Open nichtich opened 2 years ago

nichtich commented 2 years ago

Analysis of frequency in all K10plus records with any subject data (using script field-frequency.sh):

Field Percentage Description Done
003@ 100,0 % PPN x
044K 52,2 % Schlagwortfolgen (GND) x
044N 49,7 % Schlagwörter aus einem Thesaurus und freie Schlagwörter (verschiedene) - (no identifiers)
044A 38,4 % LoC Subject Headings (LCSH)
013D 32,1 % Art des Inhalts (GND)
045Q/01 28,0 % BK x
044L 26,0 % Einzelschlagwörter (Projekte): GND x
045R 21,4 % RVK x
045F 21,3 % DDC x
045V 20,8 % SSG-Nummer/FID-Kennzeichen
045D/60 18,2 % FIV-Schlagwörter (Themen)
045D 17,3 % STW-Schlagwörter x
045X 12,0 % Notation eines Klassifikationssystems (verschiedene)
045A 11,8 % LCC-Notation x
045G 10,2 % Sachgruppen der Deutschen Nationalbibliografie bis 2003 x
045D/70 8,8 % FIV-Schlagwörter (Aspekte)
044K/01 6,8 % Schlagwortfolgen (GBV, SWB, K10plus): GND x
045W 6,3 % SSG-Angabe für thematische OLC-Ausschnitte
045Y 5,4 % SSG-Angabe für Fachkataloge
045N 1,2% FIV-Klassifikationen

For extraction the order of relevance is likely:

nichtich commented 2 years ago

Split into #16 (045N), #17 (044A LCSH), #18 (LCC), #19 (SSG, 045V).

Remaining:

and lesser used fields plus the fields to be added: #11