ropensci / jstor

Import journal data from DfR (JSTOR)
https://docs.ropensci.org/jstor
47 stars 9 forks source link

update case study about n-grams #46

Closed tklebel closed 6 years ago

tklebel commented 6 years ago

Comments from Matthias

Flagship journals: hier steht im Text "Journal of Sociology", du meinst aber "American Journal of Sociology"? Ersteres ist nämlich der Name des Journals der Australischen Gesellschaft für Soziologie, nur letzteres ist wirklich "leading".

Importing bigrams bei "6729813 bigrams". Üblicherweise sieht man so lange Zahlen mit Trennzeichen (zB 6.729.813), auch wenn ich die reine Zahl ästhetisch finde.

Am Ende, wo du “labor market”, “labor force”, and “income inequality”, usw. diskutierst, bringst du das Argument, dass diese "bigrams" gut zum Thema inequality passen. Das ist zwar richtig, aber nicht besonders interessant.

Stattdessen würde ich das Problem diskutieren, dass es sich dabei aus einer inhaltlichen Sicht gar nicht um bigrams, sondern um "single concepts" handelt, die aus zwei Wörtern bestehen. Mit ganz wenigen Ausnahmen wo begriffliche Gegensatzpaare (black-white) oder (quasi-)Synonyme (race-ethnicity) auftauchen, trifft das auf den gesamten Output zu! world polity, affirmative action, gender gap, etc.

Die häufigsten Begriffe zu identifizieren hat sicher seinen Zweck. Mir scheint aber, dass (evtl. überraschende) Begriffspaarungen das eigentlich interessante einer solchen automatisierten Analyse darstellen. Daher würde ich mir als Anwender wünschen, solche "two words-single concepts" definieren zu können, um zu sehen, mit welchen anderen Begriffen sie zusammenhängen. Mit dem, was wir hier sehen, sind wir noch nicht auf die Ebene von Zusammenhängen zwischen Begriffen gekommen.

"University of Chicago" u.ä. würde von vornherein ausschließen aus den von dir genannten Gründen, da das gar nichts zur Interpretation des Outputs beiträgt.