ArchivesPortalEuropeFoundation / Topic-Detection

Using machine learning approaches for automatic topic detection in a multilingual environment
6 stars 0 forks source link

Get Relevant Entities / Concepts for each Topic #3

Closed fedenanni closed 3 years ago

fedenanni commented 4 years ago

Getting entites / concepts that are frequent in a topic but not in others.

fedenanni commented 4 years ago

@martamu I am keeping track here of the progress on this task

fedenanni commented 4 years ago

This is currently the main issue we have, each topic is very strongly associated with a single language:

[('germanDemocraticRepublic de', 55073), ('economics fr', 9573), ('slavery fr', 657), ('catholicism fr', 348), ('economics en', 11), ('economics de', 6), ('economics it', 5), ('frenchNapoleonI fr', 4)]

fedenanni commented 4 years ago

First approach, I build a doc representation of each topic and using the gensim similar_by_vector function retrieve the most similar words in each language vector space.

martamu commented 4 years ago

I think that if you can pull out a words list for each topic, no matter the language of the words, then for each topic I can create a thesaurus, and link each expression to either wikipedia or a multilanguage dictionary, so that each item in the thesaurus gets associated with a translation in all languages represented in the portal.

From your wordlist, I will add a series of items that are related to the topic, and relative wikipedia links. If there are recurring words / expressions that are not "wikipedia material", we can link to a multilingual vocabulary (not sure what would be available at the moment, but there must be free repositories online...)

Does it make sense?

fedenanni commented 4 years ago

@martamu @kerstarno Hi both! This is the first output, where I have identified the words that are most semantically relevant for a topic compared to others. This doesn't mean that these are the closest to the central meaning of the topic, but they are the ones that will help us disambiguate better this topic compared to the others. I prepared two lists:

fedenanni commented 4 years ago

The first one contains words that are semantically similar to the topic (for instance economics) and are not very relevant for the other topics. To make it easier for us all, I am using words retrieved from the English embedding space:

economics.json
['biotechnology', 0.47263458371162415]
['biotechnologies', 0.4644630253314972]
['r&d', 0.4625287652015686]
['industries', 0.4625101685523987]
['automation', 0.4617037773132324]
['commercializing', 0.4606803059577942]
['technologists', 0.4546659290790558]
['colocation', 0.4515596926212311]
['agrochemicals', 0.45058944821357727]
['affordability', 0.4494404196739197]
['nserc', 0.44746628403663635]
['retailing', 0.44706273078918457]
['laboratoire', 0.4466613233089447]
['biomaterial', 0.44522446393966675]
['mechatronics', 0.44333723187446594]
['petrochemical', 0.44288235902786255]
['nanotechnologies', 0.44263219833374023]
['technologies', 0.44220811128616333]
['technologie', 0.4416804611682892]
['nanoscience', 0.44050759077072144]
['battelle', 0.43979907035827637]
['biologics', 0.439747154712677]
['textile', 0.4394597113132477]
['industriale', 0.4392944574356079]
['cogeneration', 0.4390459656715393]
['commercialise', 0.43891826272010803]
['informa', 0.43852078914642334]
['watchmaking', 0.4382981061935425]
['engineering', 0.43810632824897766]
['petrochemicals', 0.4377467632293701]
['reengineering', 0.43746376037597656]
['entreprise', 0.437391459941864]
['electronique', 0.4356674551963806]
['systèmes', 0.43531641364097595]
['aeronautical', 0.4352925717830658]
['metallurgy', 0.43496233224868774]
['agricole', 0.4348459839820862]
['technology,', 0.4345244765281677]
['translational', 0.4344758093357086]
['production', 0.4344739615917206]
['nanosystems', 0.43443429470062256]
['courtaulds', 0.4341215491294861]
['biopharmaceutical', 0.4337072968482971]
['federalregister', 0.43337082862854004]
['brownfields', 0.4328734278678894]
['environmentreport', 0.43283435702323914]
['ginning', 0.43242788314819336]
['électronique', 0.4323805570602417]
['pharmaceutics', 0.43229013681411743]
['founded', 0.43228811025619507]

germanDemocraticRepublic.json
['german', 0.5046201944351196]
['denazification', 0.5032379627227783]
['kiesinger', 0.493866890668869]
['germany', 0.49021440744400024]
['reinickendorf', 0.4785461723804474]
['gunzenhausen', 0.4781312346458435]
['weißensee', 0.47736603021621704]
['reichsbahn', 0.476671040058136]
['germanisches', 0.4743918180465698]
['neubrandenburg', 0.4739156663417816]
['berlin', 0.4721321165561676]
['böhmer', 0.4710598587989807]
['leipziger', 0.47073763608932495]
['weißenfels', 0.47069454193115234]
['freising', 0.4693430960178375]
['rinteln', 0.4687880873680115]
['forschungsgemeinschaft', 0.4681693911552429]
['friedrichstadt', 0.46811607480049133]
['wartheland', 0.4676888585090637]
['mühlhausen', 0.4658159017562866]
['eilenburg', 0.46573519706726074]
['hilferding', 0.46519893407821655]
['aschaffenburg', 0.4649178385734558]
['selbstschutz', 0.46485435962677]
['northeim', 0.4645044207572937]
['freiberg', 0.4641231596469879]
['innenstadt', 0.46404409408569336]
['weidling', 0.4639415144920349]
['abgeordnetenhaus', 0.4639250636100769]
['reichsmarschall', 0.4633788764476776]
['leipzig', 0.4633229374885559]
['munich', 0.4631671905517578]
['fallersleben', 0.4629508852958679]
['grünwalder', 0.4626833498477936]
['rottenburg', 0.46263015270233154]
['schöneberg', 0.46236738562583923]
['goetheanum', 0.46221059560775757]
['bavarian', 0.461772084236145]
['erding', 0.4617229402065277]
['lindenau', 0.4617018699645996]
['brandenburgian', 0.46168726682662964]
['erlangen', 0.46154487133026123]
['freudenstadt', 0.46148961782455444]
['wiedenbrück', 0.4614001512527466]
['königsberg', 0.4612392485141754]
['burghausen', 0.4611058235168457]
['volkspolizei', 0.46107280254364014]
['stahlhelm', 0.4608927369117737]
['germann', 0.4604127109050751]
['lüdenscheid', 0.46030765771865845]

slavery.json
['slaves', 0.45158353447914124]
['slaving', 0.4475284516811371]
['martinique', 0.44172152876853943]
['dozen', 0.4414808750152588]
['englanders', 0.44120800495147705]
['slavery', 0.43983548879623413]
['bateaux', 0.43885338306427]
['indentures', 0.4376663565635681]
['pittance', 0.4354485273361206]
['thousands', 0.4353848397731781]
['enslavement', 0.4335844814777374]
['rues', 0.43188589811325073]
['carters', 0.4311400353908539]
['pillage', 0.4307093620300293]
['bartering', 0.4305357336997986]
['hundred', 0.4301990866661072]
['gather', 0.4291727542877197]
['sundry', 0.42878198623657227]
['depredations', 0.4278075098991394]
['lots', 0.4271596670150757]
['harrisons', 0.42696893215179443]
['illicitly', 0.42632630467414856]
['damariscotta', 0.4262593388557434]
['traders', 0.4251805245876312]
['borgne', 0.42490053176879883]
['galleys', 0.4248232841491699]
['seigneurs', 0.4244694113731384]
['conches', 0.4240874648094177]
['chattel', 0.42404499650001526]
['centuries', 0.42395129799842834]
['fresne', 0.4235631227493286]
['voyages', 0.4234488606452942]
['barques', 0.42324405908584595]
['slaveowners', 0.42250990867614746]
['toussaint', 0.42236873507499695]
['guadeloupe', 0.4219731390476227]
['fortunate', 0.42158347368240356]
['frenchmen', 0.42151033878326416]
['ransoms', 0.4213342070579529]
['félicité', 0.4205421209335327]
['pitre', 0.42016860842704773]
['colonisers', 0.41989994049072266]
['negroes', 0.4190436601638794]
['solicit', 0.4188115894794464]
['plenty', 0.4187893271446228]
['fincastle', 0.41878530383110046]
['bequests', 0.41866472363471985]
['plundering', 0.41827380657196045]
['exchanged', 0.4180690050125122]
['afflicting', 0.4180631637573242]

frenchNapoleonI.json
['startling', 0.4519374966621399]
['recapping', 0.4483398199081421]
['content', 0.441241979598999]
['walkthroughs', 0.4405727982521057]
['tactical', 0.4344347417354584]
['tactics', 0.43427497148513794]
['authorial', 0.43261581659317017]
['battlespace', 0.4324423670768738]
['argumentation', 0.4322374165058136]
['charmander', 0.43160244822502136]
['deliberately', 0.43092232942581177]
['crafting', 0.43075501918792725]
['engaging', 0.4296581745147705]
['sobering', 0.4294484257698059]
['combat', 0.42932575941085815]
['reworking', 0.4281880855560303]
['adversarial', 0.4280169904232025]
['embarrassingly', 0.42762434482574463]
['persuader', 0.4275144040584564]
['thinking', 0.42712676525115967]
['impressively', 0.427112340927124]
['vivid', 0.42704838514328003]
['carrico', 0.4270426332950592]
['rivet', 0.4269915521144867]
['countershading', 0.4268914461135864]
['ultimates', 0.4266217052936554]
['deliberate', 0.4265602231025696]
['shandling', 0.42652469873428345]
['cardstock', 0.4264264404773712]
['concealing', 0.4264204502105713]
['fuller', 0.4260799288749695]
['battlement', 0.42600390315055847]
['wringer', 0.42510107159614563]
['epistolary', 0.42508697509765625]
['napping', 0.4248627722263336]
['premeditation', 0.42480170726776123]
['undeniable', 0.42474186420440674]
['attrition', 0.4244518280029297]
['series', 0.42436978220939636]
['startlingly', 0.4239431619644165]
['revelation', 0.42374783754348755]
['affectation', 0.42356574535369873]
['basinger', 0.4235384464263916]
['novelizations', 0.42348408699035645]
['premise', 0.42348283529281616]
['replaying', 0.4234440326690674]
['authorative', 0.4233393669128418]
['factuality', 0.4231814742088318]
['uncharacteristic', 0.4226115942001343]
['heitz', 0.4224799871444702]

catholicism.json
['curial', 0.46285924315452576]
['relations', 0.4420086741447449]
['politics', 0.4349053204059601]
['direction', 0.4345802664756775]
['resignations', 0.43377265334129333]
['papoulias', 0.43330538272857666]
['reshuffles', 0.43253573775291443]
['presbyteries', 0.43237942457199097]
['episcopal', 0.4314746856689453]
['preside', 0.4312906861305237]
['appointee', 0.4312245845794678]
['aflaq', 0.4302647113800049]
['hawkish', 0.4289501905441284]
['congregations', 0.428287148475647]
['tombalbaye', 0.42674970626831055]
['ministered', 0.42670372128486633]
['congregationalist', 0.42564183473587036]
['calles', 0.425313800573349]
['presides', 0.4249272644519806]
['bozizé', 0.4248897433280945]
['outspokenness', 0.42476949095726013]
['head', 0.4247271716594696]
['aides', 0.42464154958724976]
['ideologies', 0.42463424801826477]
['congregation', 0.4236104488372803]
['episcopate', 0.42333245277404785]
['stances', 0.42260658740997314]
['cardinalate', 0.4213069677352905]
['spirituality', 0.4211070239543915]
['gendarme', 0.4209024906158447]
['resignation', 0.42042624950408936]
['denominational', 0.4203767776489258]
['afl–cio', 0.4200902581214905]
['subordinates', 0.41904714703559875]
['apolitical', 0.41873985528945923]
['pluralist', 0.4185388684272766]
['governors', 0.4185026288032532]
['communions', 0.41814541816711426]
['duplessis', 0.41788291931152344]
['personalities', 0.41775813698768616]
['fanfani', 0.417513370513916]
['libéral', 0.4174600839614868]
['dictatorial', 0.41698187589645386]
['congregationalism', 0.4167667031288147]
['prefects', 0.4167054295539856]
['parlement', 0.4165220856666565]
['juvénal', 0.41646671295166016]
['sexualities', 0.4163770377635956]
['dignity', 0.4163599908351898]
['lemass', 0.4162779450416565]
fedenanni commented 4 years ago

The second one, same thing, but this time considering words that are also semantically relevant for another topic.

economics.json
['saclay', 0.38051149249076843]
['manufacturing', 0.3737958297133446]
['paristech', 0.36965280026197433]
['consultancy', 0.368753120303154]
['engineering,', 0.3673355355858803]
['smes', 0.36631694436073303]
['technology', 0.3641170561313629]
['warehousing', 0.362179696559906]
['industrie', 0.36028093844652176]
['sustainable', 0.3575575649738312]
['tourism', 0.3573366850614548]
['sustainability', 0.35684599727392197]
['manufactures', 0.3566678911447525]
['optimisation', 0.3560803756117821]
['#national', 0.35547294467687607]
['ingénieur', 0.35538846254348755]
['supérieur', 0.35503873229026794]
['housebuilding', 0.35458170622587204]
['postsecondary', 0.3543931543827057]
['musicaindustrial', 0.3541184663772583]
['ict', 0.3528296649456024]
['biomedical', 0.3521682322025299]
['multidisciplinary', 0.35155318677425385]
['geomatics', 0.3515200987458229]
['biostatistics', 0.3514222130179405]
['industrialize', 0.3511848971247673]
['aeronautic', 0.35018324851989746]
['supérieure', 0.35004670917987823]
['radiodiffusion', 0.34947220981121063]
['agribusiness', 0.3489847257733345]
['horticulture', 0.3488997668027878]
['diversified', 0.3474595621228218]
['handicraft', 0.34739524126052856]
['agglomeration', 0.34713324159383774]
['multifamily', 0.34619663655757904]
['polytechnique', 0.3452540263533592]
['cems', 0.34523361921310425]
['deregulation', 0.34488247334957123]
['employability', 0.34471186995506287]
['products', 0.34437480568885803]
['metallurgical', 0.3443232476711273]
['tourisme', 0.34366681426763535]
['recertification', 0.34343724697828293]
['multinationals', 0.34331823885440826]
['internships', 0.34272531419992447]
['consortia', 0.3424747884273529]
['microfabrication', 0.34244025498628616]
['ifac', 0.34222671389579773]
['insurance', 0.3420151025056839]
['disinvestment', 0.34090693295001984]

germanDemocraticRepublic.json
['falkenhausen', 0.39135804772377014]
['rsha', 0.38980553299188614]
['charlottenburg', 0.38829559832811356]
['erzberger', 0.3855006992816925]
['kripo', 0.3791951537132263]
['genscher', 0.37827015668153763]
['expellees', 0.3754522502422333]
['frundsberg', 0.37524525821208954]
['miltenberg', 0.3746943771839142]
['schleiden', 0.3744896501302719]
['totenkopfverbände', 0.3735473230481148]
['heiligenberg', 0.37205491960048676]
['reichskanzler', 0.37077319622039795]
['rathenau', 0.37063880264759064]
['ordnungspolizei', 0.3692122772336006]
['kreisau', 0.36712903529405594]
['babenhausen', 0.36700621247291565]
['heiligenstadt', 0.3668300658464432]
['prussian', 0.36603765934705734]
['mittenwald', 0.36554570496082306]
['hammelburg', 0.36540089547634125]
['hugenberg', 0.3631322607398033]
['machtergreifung', 0.3627108559012413]
['rastatt', 0.3617209941148758]
['pieck', 0.3613895773887634]
['ettlingen', 0.3608848601579666]
['volkskammer', 0.3608352392911911]
['verwaltungskreis', 0.36082809418439865]
['länder', 0.36048050224781036]
['stasi', 0.3599037230014801]
['hattendorf', 0.35972387343645096]
['elversberg', 0.3596668392419815]
['offenburg', 0.3594835549592972]
['münchenstein', 0.3593933433294296]
['seligenstadt', 0.35932832956314087]
['bundesanstalt', 0.35918623208999634]
['oder–neisse', 0.3585054874420166]
['rheinberger', 0.35801009833812714]
['reich', 0.357692614197731]
['forschungszentrum', 0.35729894042015076]
['liestal', 0.35681121051311493]
['honecker', 0.35676509141921997]
['altenberg', 0.3557422310113907]
['reichskommissariat', 0.35524673759937286]
['regensburg', 0.35462847352027893]
['rothenburg', 0.35440580546855927]
['fläming', 0.35429733991622925]
['puttkamer', 0.35343482345342636]
['bormann', 0.3534144461154938]
['oderland', 0.35323478281497955]

slavery.json
['hundreds', 0.35299764573574066]
['contraband', 0.35034671425819397]
['slaveholders', 0.34588266909122467]
['colonists', 0.34546415507793427]
['innumerable', 0.34466953575611115]
['natives', 0.3401359021663666]
['maries', 0.3396572321653366]
['intermixing', 0.3375846967101097]
['exorbitant', 0.33644111454486847]
['infrequently', 0.3360568508505821]
['privateering', 0.33601391315460205]
['imitations', 0.3359910622239113]
['stapletons', 0.33492376655340195]
['voyageurs', 0.33475980162620544]
['exploiters', 0.33455850929021835]
['planters', 0.3339841440320015]
['frequent', 0.33395080268383026]
['coureurs', 0.33371295034885406]
['inheritances', 0.33328627794981003]
['esquires', 0.33283452689647675]
['handful', 0.3326532393693924]
['pickings', 0.3325875625014305]
['insurrections', 0.33183833956718445]
['copious', 0.33152399957180023]
['vermonters', 0.33062704652547836]
['countesses', 0.3304457515478134]
['intolerable', 0.3304106742143631]
['brigandage', 0.33040133863687515]
['daudet', 0.3293013721704483]
['eighty', 0.3288532644510269]
['toutes', 0.3285749554634094]
['allusions', 0.3283882290124893]
['plus', 0.3282984793186188]
['seem', 0.3282027542591095]
['jammes', 0.3278224691748619]
['accustomed', 0.32710669934749603]
['algerians', 0.32696865499019623]
['eager', 0.3268819898366928]
['gleaned', 0.32647933065891266]
['visitations', 0.3261251151561737]
['mistresses', 0.3261197954416275]
['notables', 0.32575879991054535]
['carnations', 0.3255084380507469]
['lafitte', 0.3253239691257477]
['assuredly', 0.32532357424497604]
['barthélemy', 0.3252832666039467]
['plantations', 0.3251740336418152]
['oppressions', 0.32488875091075897]
['birthplaces', 0.3246067240834236]
['lovering', 0.3244014084339142]

frenchNapoleonI.json
['distraction', 0.36198149621486664]
['narrative', 0.3560020178556442]
['strategy', 0.3522684723138809]
['cribbed', 0.35218673199415207]
['book', 0.34834130853414536]
['burnishing', 0.34489476680755615]
['introductory', 0.34427082538604736]
['instructive', 0.34334026277065277]
['counterpoints', 0.3423372656106949]
['purposefully', 0.3421552926301956]
['uninitiated', 0.34198182821273804]
['couching', 0.3412711024284363]
['persuasion', 0.34089362621307373]
['confrontation', 0.3395656496286392]
['writing', 0.339093342423439]
['reinterpretation', 0.33857980370521545]
['seeming', 0.3380836024880409]
['confusing', 0.3373383805155754]
['smarting', 0.33674150705337524]
['facts', 0.3366028666496277]
['picturing', 0.3365384191274643]
['waffling', 0.3362937867641449]
['imagine', 0.3361482173204422]
['bewildering', 0.3356420248746872]
['sapping', 0.335278183221817]
['descriptive', 0.33492767065763474]
['grenier', 0.33433476090431213]
['contextually', 0.3341551721096039]
['illustrating', 0.3341117352247238]
['shocking', 0.33400721848011017]
['purposeful', 0.33382071554660797]
['adamant', 0.33358388394117355]
['formating', 0.3334422633051872]
['unfolding', 0.33331649750471115]
['suggestive', 0.3329946845769882]
['chapman', 0.3327926695346832]
['interactivity', 0.3326013833284378]
['detail', 0.3325943350791931]
['muddling', 0.3325599953532219]
['simple', 0.3324434384703636]
['prologues', 0.33226654678583145]
['factual', 0.3321954980492592]
['shelving', 0.33213038742542267]
['installments', 0.33199845254421234]
['engagement', 0.33118680119514465]
['editions', 0.33107416331768036]
['straightforward', 0.3309818133711815]
['fromelles', 0.3306266665458679]
['commenting', 0.3306167647242546]
['baffling', 0.33043524622917175]

catholicism.json
['minister', 0.35449279844760895]
['affaires', 0.353494256734848]
['spiritual', 0.35013746470212936]
['adjutants', 0.3470350205898285]
['directeur', 0.34443048387765884]
['politic', 0.34379763901233673]
['communitarian', 0.34328166395425797]
['justice', 0.34312254190444946]
['commissioner', 0.34196530282497406]
['officeholders', 0.34139760583639145]
['juppé', 0.341225728392601]
['sfio', 0.3399081900715828]
['bureaucracies', 0.3396044224500656]
['sûreté', 0.33834581077098846]
['gaullist', 0.33818474411964417]
['sociology', 0.3379325792193413]
['bidault', 0.3378019705414772]
['counsellor', 0.3368869125843048]
['sociales', 0.33686263859272003]
['doctrinaire', 0.3355928361415863]
['seminarians', 0.3352643549442291]
['cortines', 0.33385518193244934]
['presided', 0.33319759368896484]
['restive', 0.3331353962421417]
['managerial', 0.3326747566461563]
['multicultural', 0.3325902745127678]
['milice', 0.33159710466861725]
['portfolios', 0.3315889686346054]
['congregationalists', 0.3312113285064697]
['pastors', 0.33068249374628067]
['ambassadorial', 0.33053727447986603]
['commissar', 0.3297378420829773]
['belaúnde', 0.32936933636665344]
['intergroup', 0.3291598781943321]
['multiculturalism', 0.3286962956190109]
['notables', 0.32846827805042267]
['vice', 0.328412726521492]
['legislative', 0.32740870118141174]
['conciliar', 0.327133409678936]
['seyni', 0.32682641595602036]
['marianist', 0.3267352879047394]
['catholic', 0.3266233280301094]
['libérale', 0.32597070187330246]
['lulac', 0.32595038414001465]
['nunciature', 0.32547788321971893]
['sovereigntist', 0.32541218400001526]
['maskinongé', 0.32472774386405945]
['ministerialis', 0.3244919329881668]
['arts', 0.3244171440601349]
['duties', 0.32345499098300934]
fedenanni commented 4 years ago

Take in consideration the fact that we are using a cross-lingually aligned embedding space, so there might be issues with the translation.

@martamu let me know if this looks like a useful starting point for a taxonomy, but bear in mind that the results will change a lot when we add more topics (i'll test with the new ones soon and update you here)

fedenanni commented 4 years ago

Ah - another important thing. The semantic basis that we are using here is contemporary Wikipedia, but there might be lots of semantic changes in the collection as this spans over hundred of years. So the association between catholicism and multiculturalism might be present in Wikipedia but not in the data. We can discuss more about it

kerstarno commented 4 years ago

Hi @fedenanni - thanks very much for the updates. Could you please confirm that I am understanding the following correctly?

  1. Can the terms in the two lists above be found as such in the data you are currently working with or are they translations into English of terms that can be found in other languages? And - if they are translations, are these translations already coming from a comparison with Wikipedia/Wikidata?
  2. Do I understand it correctly that you are already correlating the terms that can be found in the APE data with Wikipedia/Wikidata? And - if that is correct, how much additional help will it be if @martamu would link the terms up manually on top of the processing that's already being done? Or - to ask the other way round - would it be more helpful if we identified other (multilingual) thesauri or ontologies that could be used next to Wikipedia/Wikidata?
fedenanni commented 4 years ago

Hi @kerstarno! Good questions, let me explain it better.

In order to compare documents across language, I have mapped each of them in a shared semantic space. This semantic space is generated based on content in Wikipedia, meaning that each word that we have in the semantic space appears in Wikipedia (but not necessarily in our collection).

What I did is the following: 1) I represented each topic (e.g. economics) as a single vector in this semantic space (I'll push the code later today, so we can look at that as well and I'll add references here)

2) Then I retrieved the (English) words that are closer to this point in the semantic space.

So, while the terms can't necessarily be found as such in the collection, their "meaning" should be found as such. For instance, it might be that the French equivalent of strategy never appears in documents regarding Napoleon, but the underlying meaning should appear there.

fedenanni commented 4 years ago

I think I got now what you and @martamu are suggesting regarding the linking to Wikidata / Wikipedia for crosslingual matching. Let me put then on halt these semantic experiments and I'll try something along the lines of your suggestion.

For each language I'll first link each concept/entity in each document to Wikipedia / Wikidata and then I'll use this to generate a cross-lingual taxonomy.

This other approach will answer the following way to your questions:

1) I'll use the English entry for each linked entity / concept in the original language, but the original entity would be found as such in the document

2) In theory this second approach would generate automatically this backbone of a cross-lingual taxonomy that Marta could enrich.

fedenanni commented 4 years ago

Basically, this second approach will bring us closer to the goal of linking directly concepts / entities in text to entries in Wikipedia / Wikidata, but will miss the "semantic" understanding of what these concepts are that the first approach was offering. But we can add the second approach later into the loop.

kerstarno commented 4 years ago

Hi @fedenanni - thanks very much for the clarification and confirmation. I'd think, ideally we would want to end up with a method that allows us cross-lingual connections based on "predefined" terms AND identifying semantically related terms across the languages included in our data set. So, if we could aim at a combination of both approaches in the end, that would be great.

Two follow-up thoughts/questions:

  1. Would it be useful, if we extended the list of "predefined" terms to link up initially with Wikipedia/Wikidata for getting cross-lingual references of concepts/entities, a) by English language terms of other thesauri, e.g. LoC Subject Headings (https://id.loc.gov/authorities/subjects.html), UK Archival Thesaurus (https://ukat.aim25.com/thesaurus/) or UNESCO Thesaurus (http://vocabularies.unesco.org/browser/thesaurus/en)? E.g. check out the sub-concepst in the latter for "Economics" (http://vocabularies.unesco.org/browser/thesaurus/en/groups/?uri=http%3A%2F%2Fvocabularies.unesco.org%2Fthesaurus%2Fmt6.25)? b) by the translations of the current topic terms that we already have thanks to the input from our partners (see the Google Sheet in our shared Google Drive folder) as e.g. the Wikipedia entry for "Economics" is more about the social science than the area of production, distribution and trade, which might also apply to other terms in other languages?
  2. Would it be useful to not only aim to identify concepts/entities within our data set, but to also retrieve additional and related concepts/entities from e.g. Wikipedia/Wikidata to see how these match with our data? I'm mainly thinking about this, as a source like Wikipedia/Wikidata might use more "everyday" or "simpler" language than the often administrative language in archival descriptions and hence might be closer to the terms that user would try to search with. I.e. if we could link an easy, everyday term that user might enter in our search box with the administrative term that records creators and archivists have used to describe the documents that deal with this concept/entity/subject, this might also help our users retrieve more material that's relevant for their area of interest.

Does that make sense?

(Also: apologies, if all this variation is already covered and/or thought of in your approaches. :-) )

fedenanni commented 4 years ago

@kerstarno hi! sorry, I missed this last message but I had a chat with Marta a few days ago exactly regarding it. I'll set up an initial pipeline now for this and we could have discussion on Tuesday about your questions.

fedenanni commented 4 years ago

In order to identify entities in text, to link to Wikipedia / Wikidata, we have two main strategies:

  1. either we train an entity linker for each language we have in our corpus (using for instance my implementation of TagMe from here) [downside: it will take a lot to train each of them, as for each one we need a dump of Wikipedia in that language]

  2. we use a pre-trained model for identifying entities [downside: Spacy, one of the most extended NLP libraries covers only certain languages]

I will start with Spacy, so that we can see how far we could go with it.

fedenanni commented 4 years ago

Here's an initial output of frequent entities and key-concepts that we could link to Wikipedia (note that are not disambiguated for the moment and still noisy):

economics.json ['INPI', 2374] ['Institut national de la propriété industrielle', 2371] ['Direction', 1961] ['Premier ministre', 1810] ['Délégation', 1739] ['DATAR', 1656] ['Délégation à laménagement', 1597] ['Cabinet', 1588] ['Art 1', 1440] ['Dossier', 1414] ['Accueil et information des entreprises', 1338] ['Industrie', 1195] ['Paris', 855] ['Etat', 685] ['Urbanisme', 586] ['Art', 544] ['Bureau', 543] ['Service juridique', 504] ['Urbanisme ', 500] ['Direction générale de lindustrie', 474] ['Cabinet ', 429] ['Centre', 370] ['DOM', 369] ['Industrie ', 357] ['Ministre', 347] ['TLX', 347] ['qui', 339] ['France', 306] ['Premier ministre ', 284] ['Produits agricoles et alimentaires', 283] ['ORDRE CHRONOLOGIQUE', 279] ['PAR ORDRE CHRONOLOGIQUE', 276] ['Equipe\xa0', 267] ['1970F977815 Equipe\xa0', 266] ['Direction du développement des médias', 257] ['', 245] ['Commissariat', 244] ['PARIS', 244] ['Viandes Premier ministre', 242] ['Intérieur', 237] ['Centre national', 232] ['INSERM', 229] ['F', 226] ['entreprise\xa0', 222] ['Direction générale de la Police nationale', 215] ['Institut national de la santé', 211] ['Elle', 210] ['Direction dommages de guerre', 208] ['Art 2', 205] ['Division Archives', 202]

slavery.json ['Saint', 657.0] ['S13', 557] ['Domingue', 498.0] ['»', 363.0] ['FR CAOM', 363] ['Noirs', 349] ['Martinique', 203.0] ['B', 164.0] ['Afrique', 158.0] ['CAOM COL', 129] ['Guadeloupe', 127.0] ['CAOM', 123] ['Guinée', 118.0] ['COL', 117] ['Guyane', 115.0] ['État', 105.0] ['C', 90.0] ['Bordeaux', 89.0] ['Antilles', 89.0] ['Sénégal', 84.0] ['Amérique', 84.0] ['Nantes', 81.0] ['Sainte', 74.0] ['qui', 69.0] ['France', 69.0] ['Guide', 69.0] ['Paris', 66.0] ['Compagnie des Indes', 66] ['Louis', 61.0] ['Cap', 60.0] ['la France', 56.0] ['Marine', 55.0] ['Correspondance', 53.0] ['Cayenne', 52] ['Louisiane', 50] ['Papiers', 48.0] ['États', 47.0] ['E', 46.0] ['FR', 46.0] ['de France', 42.0] ['des Noirs', 42] ['Dim', 40] ['Compagnie', 39.0] ['dont', 39.0] ['fol', 39.0] ['Marie', 38.0] ['Madagascar', 38.0] ['Angleterre', 37.0] ['Jean', 37.0] ['Fonds', 36.0]

germanDemocraticRepublic.json ['MfS', 19417] ['der DDR', 12752] ['MfSBezirksverwaltung Leipzig', 12519] ['DDR', 11677] ['Staatssicherheit', 9090] ['des MfS', 8876] ['AKG', 8363] ['Berlin', 6404.0] ['MfSBezirksverwaltung Neubrandenburg', 5771] ['BRD', 5692] ['“', 5025] ['MfSBezirksverwaltung Neubrandenburg ', 4516] ['des Ministers', 4317] ['Leipzig', 4201.0] ['Abt', 4128] ['des Ministeriums', 4036] ['ZOSF1717740', 4013] ['des Leiters', 4008] ['Videos', 3912] ['MfSBezirksverwaltung Halle', 3870] ['MfSBezirksverwaltung Halle ', 3762] ['Abteilung', 3716] ['MfSBezirksverwaltung', 3664] ['XII', 3514] ['der Abteilung', 3452] ['Ministerium', 3447] ['Nbg Abt', 3437] ['MfSBezirksverwaltung Rostock', 3282] ['XXII', 3249.0] ['MfSBezirksverwaltung Rostock ', 3147] ['Informationen', 3142] ['Ministerium für Staatssicherheit', 3073] ['SED', 2846] ['MfSBezirksverwaltung Erfurt', 2811] ['SEDKLF921175', 2807] ['der BRD', 2799] ['MfSBezirksverwaltung Gera', 2793] ['MfSBezirksverwaltung Erfurt ', 2786] ['der Leitung', 2718] ['Kreisdienststelle', 2699] ['SEDKreisleitung', 2691] ['Ministeriums für Staatssicherheit der DDR', 2547] ['BStU', 2501] ['Personen', 2497] ['BV', 2476] ['der SED', 2474] ['OPK', 2463] ['Westberlin', 2374] ['Nr', 2307] ['MfSBezirksverwaltung Dresden', 2285]

frenchNapoleonI.json ['Présentation du contenu', 4.0] ['Série S', 3.0] [' ManuscritsF1511885', 3] ['La reliure', 3] ['48 S', 3] ['ManuscritsF1511885', 3] ['Le dossier', 2.0] ['Lützen', 1.0] ['Landshut', 1.0] ['Doris Joseph', 1] ['Fonds Muraire', 1] ['Cap Roux', 1] ['V\xa0', 1] ['Manoeuvre de Landshut', 1] ['La reliure porte\xa0', 1] ['La reliure porte\xa0 Lützen', 1] ['La reliure porte\xa0 Montmirail', 1]

catholicism.json ['Mgr', 366] ['Bureau central des cultes', 333.0] ['Direction générale de ladministration', 332.0] ['Direction de ladministration territoriale et des affaires politiques', 332.0] ['Grade\xa0', 327] ['1998F977133 Grade\xa0 Mgr', 268] ['Jean Intérieur', 29] ['Cabinet\xa0', 28.0] ['Fonction\xa0 évêque auxiliaire', 27] ['Jean', 22.0] ['Marie Intérieur ', 22] ['Marie Intérieur', 22] ['André Intérieur', 19] ['France', 17.0] ['Cabinet', 16.0] ['Joseph Intérieur', 15] ['Louis Intérieur', 15] ['Henri Intérieur', 13] ['Corse', 12.0] ['Paul Intérieur', 12.0] ['Pierre', 11.0] ['Pierre Intérieur', 11.0] ['François Intérieur', 11] ['Art 1', 10.0] ['Etat', 10.0] ['Alsace', 10.0] ['Bureau central', 10.0] ['Jacques Intérieur', 10] ['René Intérieur', 10] ['Centre', 9.0] ['la Corse', 9.0] ['Georges Intérieur', 9] ['Intérieur', 8.0] ['Roger Intérieur', 8] ['Moselle', 7.0] ['conseiller technique 1986', 7.0] ['Intérieur\xa0', 7.0] ['Maurice Intérieur', 7] ['Fonction\xa0 auxiliaire', 7] ['Premier ministre', 6.0] ['Archives nationales', 6.0] ['M Jean', 6.0] ['Lebret', 6.0] ['Direction générale de ladministration\xa0', 6.0] ['Direction de ladministration territoriale et des affaires politiques\xa0', 6.0] ['Robert Intérieur', 6] ['Marcel Intérieur', 6] ['Charles Intérieur', 6] ['Paris', 5.0] ['qui', 5.0]

kerstarno commented 4 years ago

Hi @fedenanni

Thanks for the further input. Let's talk this through - especially with regard to the up- and downsides of the available options tomorrow.

fedenanni commented 4 years ago

@martamu @kerstarno here's a first attempt to link the most-frequently found entities / concepts to Wikipedia (as you can see there are some mistakes that we could handle):

slavery.json Saint 657.0 [['/wiki/Saint', 'fr']] S13 557 [['/wiki/Nissan200SX', 'fr']] Domingue 498.0 [['/wiki/Saint-Domingue(colonie_fran%C3%A7aise)', 'fr']] FR CAOM 363 [['/wiki/%C3%8ElesSous-le-Vent(Polyn%C3%A9sie)', 'fr']] Noirs 349 [['/wiki/Noir_(humain)', 'fr']] Martinique 203.0 [['/wiki/Martinique', 'de'], ['/wiki/Martinique', 'fr']] Afrique 158.0 [['/wiki/Afrique', 'fr']] CAOM COL 129 [['/wiki/%C3%8ElesSous-le-Vent(Polyn%C3%A9sie)', 'fr']] Guadeloupe 127.0 [['/wiki/Guadeloupe', 'de'], ['/wiki/Guadeloupe', 'fr']] CAOM 123 [['/wiki/Archives_nationales_d%27outre-mer', 'fr']] Guinée 118.0 [['/wiki/Guin%C3%A9e', 'fr']] COL 117 [['/wiki/COL', 'fr']] Guyane 115.0 [['/wiki/Guyane', 'fr']] État 105.0 [['/wiki/%C3%89tat', 'fr']] Bordeaux 89.0 [['/wiki/Bordeaux', 'de'], ['/wiki/Bordeaux', 'fr']] Antilles 89.0 [['/wiki/Antilles', 'fr']] Sénégal 84.0 [['/wiki/S%C3%A9n%C3%A9gal', 'fr']] Amérique 84.0 [['/wiki/Am%C3%A9rique', 'fr']] Nantes 81.0 [['/wiki/Nantes', 'fr']] Sainte 74.0 [['/wiki/Saint', 'fr']] qui 69.0 [['/wiki/Qui', 'fr']] France 69.0 [['/wiki/France', 'fr']] Guide 69.0 [['/wiki/Guide_Michelin', 'fr']] Paris 66.0 [['/wiki/Paris', 'de'], ['/wiki/Paris', 'fr']] Compagnie des Indes 66 [['/wiki/Compagnie_des_Indes', 'fr']] Louis 61.0 [['/wiki/Louis', 'de'], ['/wiki/Louis', 'fr']] Cap 60.0 [['/wiki/CAP', 'de'], ['/wiki/LeCap', 'fr']] la France 56.0 [['/wiki/France', 'fr']] Marine 55.0 [['/wiki/Marine', 'de'], ['/wiki/Marine', 'fr']] Correspondance 53.0 [['/wiki/Correspondance', 'fr']] Cayenne 52 [['/wiki/Cayenne', 'fr']] Louisiane 50 [['/wiki/Louisiane', 'fr']] Papiers 48.0 [['/wiki/Papier', 'fr']] États 47.0 [['/wiki/%C3%89tat', 'fr']] de France 42.0 [['/wiki/France', 'fr']] des Noirs 42 [['/wiki/Pieds-noirs', 'fr']] Dim 40 [['/wiki/Dim(lingerie)', 'fr']] Compagnie 39.0 [['/wiki/Compagnie', 'fr']] dont 39.0 [['/wiki/Anglais', 'fr']] fol 39.0 [['/wiki/FOL', 'de'], ['/wiki/FOL', 'fr']] Marie 38.0 [['/wiki/Marie', 'fr']] Madagascar 38.0 [['/wiki/Madagascar', 'fr']] Angleterre 37.0 [['/wiki/Angleterre', 'fr']] Jean 37.0 [['/wiki/Jean', 'fr']] Fonds 36.0 [['/wiki/Fonds', 'de'], ['/wiki/Fonds', 'fr']] Anglais 36.0 [['/wiki/Anglais', 'fr']] ils 34.0 [['/wiki/Ils', 'fr']] La Rochelle 34 [['/wiki/La_Rochelle', 'fr']] PortauPrince 34 [['/wiki/Port-au-Prince', 'fr']] Conseil 32.0 [['/wiki/Conseil', 'fr']]

catholicism.json Mgr 366 [['/wiki/MGR', 'fr']] Bureau central des cultes 333.0 [['/wiki/Bureau_central_des_cultes', 'fr']] Direction générale de ladministration 332.0 [['/wiki/Agence_nationale_de_traitement_automatis%C3%A9_des_infractions', 'fr']] Direction de ladministration territoriale et des affaires politiques 332.0 [[None, 'fr']] Grade 327 [['/wiki/Grade', 'fr']] 1998F977133 Grade Mgr 268 [[None, 'fr']] Jean Intérieur 29 [['/wiki/Produit_int%C3%A9rieur_brut', 'fr']] Cabinet 28.0 [['/wiki/Cabinet', 'fr']] Fonction évêque auxiliaire 27 [['/wiki/Jozef_De_Kesel', 'fr']] Jean 22.0 [['/wiki/Jean', 'fr']] Marie Intérieur 22 [['/wiki/Produit_int%C3%A9rieur_brut', 'fr']] Marie Intérieur 22 [['/wiki/Produit_int%C3%A9rieur_brut', 'fr']] André Intérieur 19 [['/wiki/%C3%89glise_Saint-Andr%C3%A9_de_Fenain', 'fr']] France 17.0 [['/wiki/France', 'fr']] Cabinet 16.0 [['/wiki/Cabinet', 'fr']] Joseph Intérieur 15 [['/wiki/Produit_int%C3%A9rieur_brut', 'fr']] Louis Intérieur 15 [['/wiki/Int%C3%A9rieur', 'fr']] Henri Intérieur 13 [['/wiki/HenriIV(roi_de_France)', 'fr']] Corse 12.0 [['/wiki/Corse', 'fr']] Paul Intérieur 12.0 [['/wiki/Produit_int%C3%A9rieur_brut', 'fr']] Pierre 11.0 [['/wiki/Pierre', 'fr']] Pierre Intérieur 11.0 [['/wiki/Produit_int%C3%A9rieur_brut', 'fr']] François Intérieur 11 [['/wiki/Fran%C3%A7oisIer(roi_de_France)', 'fr']] Art 1 10.0 [['/wiki/Art_urbain', 'fr']] Etat 10.0 [['/wiki/Etat', 'de'], ['/wiki/%C3%89tat', 'fr']] Alsace 10.0 [['/wiki/Alsace', 'fr']] Bureau central 10.0 [['/wiki/Bureau_central_de_renseignements_et_d%27action', 'fr']] Jacques Intérieur 10 [['/wiki/Minist%C3%A8re_del%27Int%C3%A9rieur(France)', 'fr']] René Intérieur 10 [['/wiki/Ren%C3%A9_Magritte', 'fr']] Centre 9.0 [['/wiki/Centre', 'fr']] la Corse 9.0 [['/wiki/Corse', 'fr']] Georges Intérieur 9 [['/wiki/Minist%C3%A8re_del%27Int%C3%A9rieur(France)', 'fr']] Intérieur 8.0 [['/wiki/Int%C3%A9rieur', 'fr']] Roger Intérieur 8 [['/wiki/Minist%C3%A8re_del%27Int%C3%A9rieur(France)', 'fr']] Moselle 7.0 [['/wiki/Moselle(d%C3%A9partement)', 'fr']] conseiller technique 1986 7.0 [['/wiki/Youngblood(film,_1986)', 'fr']] Intérieur 7.0 [['/wiki/Int%C3%A9rieur', 'fr']] Maurice Intérieur 7 [['/wiki/Int%C3%A9rieur', 'fr']] Fonction auxiliaire 7 [['/wiki/Myers_Briggs_Type_Indicator', 'fr']] Premier ministre 6.0 [['/wiki/Premier_ministre_fran%C3%A7ais', 'fr']] Archives nationales 6.0 [['/wiki/Archivesnationales(France)', 'fr']] M Jean 6.0 [['/wiki/Jean_M._Auel', 'fr']] Lebret 6.0 [['/wiki/Louis-Joseph_Lebret', 'fr']] Direction générale de ladministration 6.0 [['/wiki/Agence_nationale_de_traitement_automatis%C3%A9_des_infractions', 'fr']] Direction de ladministration territoriale et des affaires politiques 6.0 [[None, 'fr']] Robert Intérieur 6 [['/wiki/Direction_g%C3%A9n%C3%A9rale_de_la_S%C3%A9curit%C3%A9_int%C3%A9rieure', 'fr']] Marcel Intérieur 6 [['/wiki/Marcel_Proust', 'fr']] Charles Intérieur 6 [['/wiki/Produit_int%C3%A9rieur_brut', 'fr']] Paris 5.0 [['/wiki/Paris', 'de'], ['/wiki/Paris', 'fr']] qui 5.0 [['/wiki/Qui', 'fr']]

economics.json INPI 2374 [['/wiki/INPI', 'fr']] Institut national de la propriété industrielle 2371 [['/wiki/Institut_national_de_la_propri%C3%A9t%C3%A9_industrielle', 'fr']] Direction 1959 [['/wiki/Direction', 'fr']] Premier ministre 1810 [['/wiki/Premier_ministre_fran%C3%A7ais', 'fr']] Délégation 1739 [['/wiki/D%C3%A9l%C3%A9gation', 'fr']] DATAR 1656 [['/wiki/D%C3%A9l%C3%A9gationinterminist%C3%A9rielle%C3%A0_l%27am%C3%A9nagement_du_territoireet%C3%A0_l%27attractivit%C3%A9r%C3%A9gionale', 'fr']] Délégation à laménagement 1597 [['/wiki/Mettis(bus_%C3%A0_haut_niveau_de_service)', 'fr']] Cabinet 1588 [['/wiki/Cabinet', 'fr']] Art 1 1440 [['/wiki/Art_urbain', 'fr']] Dossier 1414 [['/wiki/Dossier', 'de'], ['/wiki/Dossier', 'fr']] Accueil et information des entreprises 1338 [['/wiki/Responsabilit%C3%A9_soci%C3%A9tale_des_entreprises', 'fr']] Industrie 1195 [['/wiki/Industrie', 'de'], ['/wiki/Industrie', 'fr']] Paris 856 [['/wiki/Paris', 'de'], ['/wiki/Paris', 'fr']] Etat 685 [['/wiki/Etat', 'de'], ['/wiki/%C3%89tat', 'fr']] Urbanisme 587 [['/wiki/France', 'en'], ['/wiki/New_Urbanism', 'de'], ['/wiki/Urbanisme', 'fr']] Art 544 [['/wiki/Art', 'de'], ['/wiki/Art', 'fr']] Bureau 543 [['/wiki/Bureau', 'fr']] Service juridique 504 [['/wiki/Directeur_juridique', 'fr']] Urbanisme 499 [['/wiki/Urbanisme', 'fr']] Direction générale de lindustrie 474 [['/wiki/Bruce_Willis', 'fr']] Cabinet 429 [['/wiki/Cabinet', 'fr']] DOM 377 [['/wiki/DOM', 'fr']] Centre 369 [['/wiki/Centre', 'fr']] Industrie 357 [['/wiki/Industrie', 'fr']] Ministre 347 [['/wiki/Ministre', 'fr']] TLX 347 [['/wiki/Acura_TLX', 'fr']] qui 339 [['/wiki/Qui', 'fr']] France 306 [['/wiki/France', 'fr']] Premier ministre 284 [['/wiki/Premier_ministre_fran%C3%A7ais', 'fr']] Produits agricoles et alimentaires 283 [['/wiki/Gamme_de_produits_alimentaires', 'fr']] ORDRE CHRONOLOGIQUE 279 [['/wiki/Dramaturges_par_ordre_chronologique', 'fr']] PAR ORDRE CHRONOLOGIQUE 276 [['/wiki/Dramaturges_par_ordre_chronologique', 'fr']] Equipe 267 [['/wiki/%C3%89quipe', 'fr']] 1970F977815 Equipe 266 [[None, 'fr']] Direction du développement des médias 257 [['/wiki/Direction_g%C3%A9n%C3%A9rale_des_M%C3%A9dias_et_des_Industries_culturelles', 'fr']] Commissariat 244 [['/wiki/Commissariat', 'fr']] PARIS 244 [['/wiki/Paris', 'fr']] Viandes Premier ministre 242 [['/wiki/Viande_bovine', 'fr']] Intérieur 237 [['/wiki/Int%C3%A9rieur', 'fr']] Centre national 233 [['/wiki/Centre_national_d%27art_et_de_culture_Georges-Pompidou', 'fr']] INSERM 229 [['/wiki/Institut_national_de_la_sant%C3%A9_et_de_la_recherche_m%C3%A9dicale', 'fr']] entreprise 222 [['/wiki/Entreprise', 'fr']] Direction générale de la Police nationale 215 [['/wiki/Direction_g%C3%A9n%C3%A9rale_de_la_Police_nationale', 'fr']] Institut national de la santé 211 [['/wiki/Institut_national_de_la_sant%C3%A9_et_de_la_recherchem%C3%A9dicale', 'fr']] Elle 210 [['/wiki/Elle(magazine)', 'fr']] Direction dommages de guerre 209 [['/wiki/Dommages_de_guerre', 'fr']] Art 2 205 [['/wiki/Art', 'fr']] Division Archives 202 [['/wiki/%C3%89mile_Butscha', 'fr']] Culture 195 [['/wiki/Culture', 'fr']] DGRST 192 [['/wiki/Affaire_Priore', 'fr']]

frenchNapoleonI.json Présentation du contenu 4.0 [['/wiki/Syst%C3%A8me_de_gestion_de_contenu', 'fr']] Série S 3.0 [['/wiki/S%C3%A9rie_t%C3%A9l%C3%A9vis%C3%A9e', 'fr']] ManuscritsF1511885 3 [[None, 'fr']] La reliure 3 [['/wiki/Reliure', 'fr']] 48 S 3 [['/wiki/48_Heures', 'fr']] ManuscritsF1511885 3 [[None, 'fr']] Le dossier 2.0 [['/wiki/Le_Dossier_M', 'fr']] Lützen 1.0 [['/wiki/L%C3%BCtzen', 'de'], ['/wiki/L%C3%BCtzen', 'fr']] Landshut 1.0 [['/wiki/Landshut', 'de'], ['/wiki/Landshut', 'fr']] Doris Joseph 1 [['/wiki/Doris_Day', 'fr']] Fonds Muraire 1 [['/wiki/Raimu', 'fr']] Cap Roux 1 [['/wiki/CapRoux(Anth%C3%A9or)', 'fr']] Manoeuvre de Landshut 1 [['/wiki/Cinqui%C3%A8me_Coalition', 'fr']] La reliure porte 1 [['/wiki/Reliure', 'fr']] La reliure porte Lützen 1 [['/wiki/37e_r%C3%A9giment_d%27infanterie', 'fr']] La reliure porte Montmirail 1 [['/wiki/Abbaye_Sainte-Madeleine_du_Barroux', 'fr']]

germanDemocraticRepublic.json MfS 19417 [['/wiki/Ministerium_f%C3%BCr_Staatssicherheit', 'de']] der DDR 12752 [['/wiki/Deutsche_DemokratischeRepublik', 'de']] MfSBezirksverwaltung Leipzig 12519 [[None, 'de']] DDR 11677 [['/wiki/DDR(Begriffskl%C3%A4rung)', 'de']] Staatssicherheit 9090 [['/wiki/Ministerium_f%C3%BCr_Staatssicherheit', 'de']] des MfS 8876 [['/wiki/Ministerium_f%C3%BCr_Staatssicherheit', 'de']] AKG 8363 [['/wiki/AKG_Acoustics', 'de']] Berlin 6404.0 [['/wiki/Berlin', 'de'], ['/wiki/Berlin', 'fr']] MfSBezirksverwaltung Neubrandenburg 5771 [[None, 'de']] BRD 5692 [['/wiki/BRD', 'de']] MfSBezirksverwaltung Neubrandenburg 4516 [[None, 'de']] des Ministers 4317 [['/wiki/Premierminister_von_Neuseeland', 'de']] Leipzig 4201.0 [['/wiki/Leipzig', 'de'], ['/wiki/Leipzig', 'fr']] Abt 4128 [['/wiki/Abt', 'de']] des Ministeriums 4036 [['/wiki/Ministerium_f%C3%BCr_Staatssicherheit', 'de']] ZOSF1717740 4013 [[None, 'de']] des Leiters 4008 [['/wiki/Oberkommando_des_Heeres', 'de']] Videos 3912 [['/wiki/Liste_der_meistaufgerufenen_YouTube-Videos', 'de']] MfSBezirksverwaltung Halle 3870 [[None, 'de']] MfSBezirksverwaltung Halle 3762 [[None, 'de']] Abteilung 3716 [['/wiki/Abteilung', 'de']] MfSBezirksverwaltung 3664 [[None, 'de']] XII 3514 [['/wiki/Pius_XII.', 'de'], ['/wiki/PieXII', 'fr']] der Abteilung 3452 [['/wiki/Abteilung(Organisation)', 'de']] Ministerium 3447 [['/wiki/Ministerium', 'de']] Nbg Abt 3437 [['/wiki/Sonderschutzgebiet', 'de']] MfSBezirksverwaltung Rostock 3282 [[None, 'de']] XXII 3249.0 [['/wiki/Johannes_XXII.', 'de'], ['/wiki/Jean_XXII', 'fr']] MfSBezirksverwaltung Rostock 3147 [[None, 'de']] Informationen 3142 [['/wiki/Information', 'de']] Ministerium für Staatssicherheit 3073 [['/wiki/Ministerium_f%C3%BCr_Staatssicherheit', 'de']] SED 2846 [['/wiki/Sozialistische_Einheitspartei_Deutschlands', 'de']] MfSBezirksverwaltung Erfurt 2811 [[None, 'de']] SEDKLF921175 2807 [[None, 'de']] der BRD 2799 [['/wiki/BRD', 'de']] MfSBezirksverwaltung Gera 2793 [[None, 'de']] MfSBezirksverwaltung Erfurt 2786 [[None, 'de']] der Leitung 2718 [['/wiki/Leitung', 'de']] Kreisdienststelle 2699 [['/wiki/Ministerium_f%C3%BCr_Staatssicherheit', 'de']] SEDKreisleitung 2691 [[None, 'de']] Ministeriums für Staatssicherheit der DDR 2547 [['/wiki/Ministerium_f%C3%BCr_Staatssicherheit', 'de']] BStU 2501 [['/wiki/Bundesbeauftragter_f%C3%BCr_die_Stasi-Unterlagen', 'de']] Personen 2497 [['/wiki/Juristische_Person', 'de']] der SED 2474 [['/wiki/Sozialistische_Einheitspartei_Deutschlands', 'de']] OPK 2463 [['/wiki/OPK', 'de']] Westberlin 2374 [['/wiki/West-Berlin', 'de']] MfSBezirksverwaltung Dresden 2285 [[None, 'de']] DOSA 2250 [['/wiki/Dosa', 'de']] Leitung 2246 [['/wiki/Leitung', 'de']] MfSBezirksverwaltung Gera 2246 [[None, 'de']]

martamu commented 4 years ago

Dear Federico Very interesting stuff. Two questions:
1) CODES: @kerstarno correct me if I am wrong, but the CODES could be interesting to retrieve similar documents in APE, that were not tagged as TOPICS, but could come from same/similar collections? These codes though are probably useless to confront with Wikipedia... 2) Shall we trim from Wikipedia the terms that are too generic? (eg, "État" under slavery): @fedenanni would they create too much "noise"?

On my side, basically waiting for @fedenanni's go to add meaningful entities to each topics that may not be present in the dataset as it is now

fedenanni commented 4 years ago

Hi all - Yes let's have a chat tomorrow about 2) and how to combine:

  1. a top-up approach guided by you (so you make a list of entities that are relevant)
  2. a bottum-up approach having relevant entities from text (that I extract)
  3. a semantic approach that will allow the clustering and retrieval of documents
kerstarno commented 4 years ago

Hi all,

@martamu: not sure, what you refer to with "Codes", so not sure how to answer your question. Maybe we can clarify during the call later.

With regard to links to Wiki and using this as a multilingual source (also to be discussed during the call later):

With regard to combinations of the various approaches (again to be discussed during the call later):

fedenanni commented 4 years ago

For this task, as soon as we move outside the main European languages we lack resources for extracting entities / concepts (for instance Spacy models). To overcome this, I'll first process all most frequent trigrams, bigrams and unigrams per language and then I need a heuristics to skip stopwords etc in low-resource languages (e.g., finnish).

kerstarno commented 4 years ago

@fedenanni - is that mainly for subject/themes the entities in question or also for persons, organisations, places?

It would be great, of course, if we could come up with something that also allows us to connect different documents on a conceptual basis which also covers semantically related "terms", but given that archival language can be quite specific (and might be a general challenge in this), I'm wondering if identifying relevant persons, organisations, places for a topic could provide an alternative approach to start with. While spellings and transliteration might differ (and we might need to consider changes of - especially - place names over time, I would expect there to be less variance in these.

Just a thought to maybe consider depending on further findings/experiments.

fedenanni commented 4 years ago

@kerstarno good point - no in general we don't have NLP pipelines easily accessible for various languages, so no named entity recognition easily doable for those. I'll try a few things this week and we can discuss about it together in the next meeting.

fedenanni commented 4 years ago

@martamu here are the top 100 most discriminative entities for each topic. I added you the language at the beginning of each one (so if you see repetitions it's because they point to different language pages).

Feel free to add / remove/change

catholicism.json
de/wiki/Monsignore
fr/wiki/Bureau_central_des_cultes
fr/wiki/Grade
fr/wiki/Karim_Zaz
fr/wiki/Produit_intérieur_brut
fr/wiki/Jozef_De_Kesel
fr/wiki/Église_Saint-André_de_Fenain
fr/wiki/Cabinet
fr/wiki/Louis_XII
fr/wiki/Henri_IV_(roi_de_France)
fr/wiki/François_Ier_(roi_de_France)
fr/wiki/Wildsteig
fr/wiki/René_Magritte
fr/wiki/Bureau_central_de_renseignements_et_d'action
fr/wiki/Bourse_de_Saint_Georges
fr/wiki/Roger_Federer
fr/wiki/Maurice_(pays)
fr/wiki/Myers_Briggs_Type_Indicator
fr/wiki/Direction_générale_de_la_Sécurité_intérieure
fr/wiki/Marcel_Proust
fr/wiki/Conseil_technique_de_la_prévention_spécialisée
fr/wiki/Le_Bret
fr/wiki/Fonction
fr/wiki/Coadjuteur
fr/wiki/Albert_Ier_(roi_des_Belges)
fr/wiki/Philippe_II_Auguste
fr/wiki/Château_de_l'Horizon
fr/wiki/Jean
fr/wiki/Georges_Eugène_Haussmann
fr/wiki/Félix_Tshisekedi
fr/wiki/Émile_Loubet
fr/wiki/Le_Mont-Saint-Michel
fr/wiki/Islam
fr/wiki/Jeunesse
fr/wiki/Corse
fr/wiki/45
fr/wiki/Intérieur_(topologie)
fr/wiki/Jean_M._Auel
fr/wiki/Éditions_des_archives_contemporaines
fr/wiki/Armand_Fallières
fr/wiki/Octave_Mirbeau
fr/wiki/Gabriel_Matzneff
fr/wiki/Alexandre_le_Grand
fr/wiki/Sirine_Husseini_Shahid
fr/wiki/André_Damien
fr/wiki/Ministère_de_l'Intérieur_(France)
fr/wiki/Alfred_Hitchcock
fr/wiki/Ménage
fr/wiki/Guy_Bedos
fr/wiki/Roger_Salengro
fr/wiki/Marty
fr/wiki/Julien_Dray
fr/wiki/Culte
fr/wiki/Daniel_Vaillant
fr/wiki/Conseiller_principal_d'éducation
fr/wiki/Conseil_constitutionnel_(France)
fr/wiki/Charles_Delzant
fr/wiki/Délégation_interministérielle_à_l'aménagement_du_territoire_et_à_l'attractivité_régionale
fr/wiki/Substitution
fr/wiki/Moselle
fr/wiki/Architecture_d'intérieur
fr/wiki/Jean-Louis_Debré
fr/wiki/Martin
fr/wiki/Décret
fr/wiki/Édouard_Philippe
fr/wiki/Jules_Ferry
fr/wiki/Rigaud
fr/wiki/Lucien_Bonaparte
fr/wiki/Urtasun
fr/wiki/Edmond_Halley
fr/wiki/Louis_de_Gouyon_Matignon
fr/wiki/Dubois
fr/wiki/Marc
fr/wiki/Lali_Espósito
fr/wiki/Maurice_Feltin

economics.json
fr/wiki/INPI
fr/wiki/Institut_national_de_la_propriété_industrielle
en/wiki/Direction
fr/wiki/Premier_ministre
fr/wiki/Délégation
fr/wiki/Délégation_interministérielle_à_l'aménagement_du_territoire_et_à_l'attractivité_régionale
fr/wiki/Mettis_(bus_à_haut_niveau_de_service)
fr/wiki/Cabinet
fr/wiki/Sword_Art_Online
de/wiki/Dossier
fr/wiki/Responsabilité_sociétale_des_entreprises
de/wiki/Industrie
de/wiki/Etat
en/wiki/France
fr/wiki/Bureau
de/wiki/Art
fr/wiki/Directeur_juridique
fr/wiki/Urbanisme
fr/wiki/Bruce_Willis
fr/wiki/DOM
fr/wiki/Centre
fr/wiki/Industrie
fr/wiki/Acura_TLX
fr/wiki/Ministre
fr/wiki/Qui
it/wiki/France
fr/wiki/Gamme_de_produits_alimentaires
fr/wiki/Dramaturges_par_ordre_chronologique
fr/wiki/Premier_ministre_français
fr/wiki/Équipe
fr/wiki/Direction_générale_des_Médias_et_des_Industries_culturelles
fr/wiki/Paris
fr/wiki/Commissariat
fr/wiki/Viande_bovine
fr/wiki/Monologue_intérieur
fr/wiki/Centre_national_de_la_recherche_scientifique
fr/wiki/Institut_national_de_la_santé_et_de_la_recherche_médicale
fr/wiki/Entreprise
fr/wiki/Direction_générale_de_la_Police_nationale
fr/wiki/Dommages_de_guerre
fr/wiki/Elle_(magazine)
fr/wiki/Art
fr/wiki/Émile_Butscha
fr/wiki/Culture
fr/wiki/Affaire_Priore
fr/wiki/Direction_de_la_science_et_technologie
fr/wiki/Albadé_Abouba
fr/wiki/Justice
fr/wiki/Étude
fr/wiki/Référence
fr/wiki/Space_Art
fr/wiki/Travail
fr/wiki/Institut_national_de_l'audiovisuel
fr/wiki/Audiovisuel
fr/wiki/Direction_générale_des_Télécommunications
fr/wiki/Documents
fr/wiki/Produit
fr/wiki/Secrétariat_général_des_affaires_européennes
de/wiki/Recherche
fr/wiki/Agriculture
fr/wiki/Notes
fr/wiki/Elle
fr/wiki/Chargé_de_mission
fr/wiki/Santé
fr/wiki/Lait
fr/wiki/Secrétariat
fr/wiki/Généralité
fr/wiki/Article_5_de_la_Convention_européenne_des_droits_de_l'homme
fr/wiki/MST
de/wiki/Mission
fr/wiki/Boisson
de/wiki/Marseille
fr/wiki/RTE_(entreprise)
en/wiki/Renater
fr/wiki/HH
fr/wiki/7_Arts
fr/wiki/La_France
fr/wiki/CNC
it/wiki/Commissione_interprovinciale
fr/wiki/Conseil
fr/wiki/Électronique
de/wiki/Kölner_Dom
fr/wiki/Direction_des_affaires_civiles_et_du_Sceau
fr/wiki/Archives
fr/wiki/CEE
fr/wiki/Transport

firstWorldWar.json
de/wiki/BD
de/wiki/Inspekteur_des_Heeres
de/wiki/Heer
de/wiki/Preußische_Armee
de/wiki/UA
de/wiki/Freikorps_Schwarze_Jäger
de/wiki/Rudolf_Kiszling
de/wiki/Reichsbank
de/wiki/Reichskolonialamt
de/wiki/Kaiserliche_Marine
de/wiki/Reichskanzlei
de/wiki/Kriegstagebuch
de/wiki/Planck-Einheiten
de/wiki/Deutsche
de/wiki/Manuskript
de/wiki/Technische_Zeichnung
de/wiki/Deutsches_Heer_(Deutsches_Kaiserreich)
de/wiki/Marinekorps_Flandern
de/wiki/Deutschland
de/wiki/Armee
de/wiki/Chef
de/wiki/Anlage
de/wiki/Korrespondenz
de/wiki/Korrekturlesen
de/wiki/VA
de/wiki/Belgien
de/wiki/Japanische_Flugzeuge_im_Zweiten_Weltkrieg
de/wiki/Liste_der_Infanterieregimenter_der_kaiserlich-habsburgischen_Armee_der_Frühen_Neuzeit
de/wiki/Septime
de/wiki/Generalkommando
de/wiki/Frankreich
de/wiki/Adjutant
de/wiki/Karten
de/wiki/Memorandum
de/wiki/Korps
de/wiki/Febre
de/wiki/England
de/wiki/Gardekorps
de/wiki/London
de/wiki/Homeland_(Fernsehserie)
de/wiki/Bericht
de/wiki/Holland
de/wiki/DAT
de/wiki/SMS_Fürst_Bismarck
de/wiki/Fritz_Haber
de/wiki/Rundbild
de/wiki/Kamerun
de/wiki/Wehrtechnische_Dienststelle
de/wiki/Kaffee
de/wiki/Kiautschou
fr/wiki/Fracture_du_calcanéum
fr/wiki/Première_Guerre_mondiale
de/wiki/Tee
fr/wiki/Niçois
de/wiki/Luftwaffe
de/wiki/Schlacht_an_der_Marne_(1914)
de/wiki/Jukai
de/wiki/Deutsch-Südwestafrika
de/wiki/Reichsführer_SS
de/wiki/Matthias
de/wiki/Blau
fr/wiki/Nathalie_Bondil
de/wiki/General
de/wiki/Verdun
de/wiki/Hermann_da_Fonseca-Wollheim
de/wiki/Festung
de/wiki/OHL

genealogy.json
fr/wiki/Coppet
fr/wiki/Un_été_42
fr/wiki/Série_télévisée
fr/wiki/Arnac-Pompadour
fr/wiki/Jacques_Delors
fr/wiki/Cantal_(département)
fr/wiki/Flour
fr/wiki/Saint-Santin
fr/wiki/Nos_jours_heureux
fr/wiki/J.-J.-J._Rigal
fr/wiki/Pierre_Rigal
fr/wiki/Rouziers
fr/wiki/Perrette_Pradier
fr/wiki/Marthon
fr/wiki/Berne
fr/wiki/Champvent
fr/wiki/Presse-papier_(informatique)
fr/wiki/Sarde
fr/wiki/Sermon
fr/wiki/Catalogue
fr/wiki/Indochine
fr/wiki/Georges_Pompidou
fr/wiki/Martine_Aubry
fr/wiki/Lynx_pardelle
fr/wiki/Saint-Thomas-de-Conac
fr/wiki/Raoul_Serres
fr/wiki/Gène
fr/wiki/Daniel_Dratwa
fr/wiki/Château_de_Castelnau-Bretenoux
fr/wiki/Greffe_(botanique)
fr/wiki/Marchandise
fr/wiki/Tentative_de_suicide
fr/wiki/Noblesse
fr/wiki/Acte_de_naissance
fr/wiki/Voie_lactée
fr/wiki/Dominique_Dufour_de_Pradt
fr/wiki/Vallée_des_Prades
fr/wiki/Bernard_Berthois_Rigal
fr/wiki/Branche
fr/wiki/Thiézac
fr/wiki/Origines
fr/wiki/Pierre
fr/wiki/Antoine
fr/wiki/Baccalauréat_en_France
fr/wiki/American_Woman
fr/wiki/Châlons-en-Champagne
fr/wiki/La_Montagne
fr/wiki/Mouret_(Cantal)
fr/wiki/Causse_corrézien
fr/wiki/Le_Lonzac
fr/wiki/La_Flotte
fr/wiki/Étienne_Clavière
fr/wiki/Marmanhac
fr/wiki/Anna_Delso
fr/wiki/Lherm_(Haute-Garonne)
fr/wiki/Libron
fr/wiki/Peter_Raymont
fr/wiki/Rouffiac_(Charente)
fr/wiki/Liste_des_voies_de_Toulouse
fr/wiki/Freaky_Friday_:_Dans_la_peau_de_ma_mère
fr/wiki/Las_Ventas
fr/wiki/Commission_européenne
fr/wiki/Conseil_départemental_de_la_Corrèze
fr/wiki/Famille_de_Chavagnac
fr/wiki/Trémouilles
fr/wiki/Ancêtre
fr/wiki/Cheval_en_Guinée
fr/wiki/Champ_(agriculture)
fr/wiki/Honorat_de_Bueil_de_Racan
fr/wiki/Stance
fr/wiki/Rouziers-de-Touraine
fr/wiki/La_Châtaigneraie
fr/wiki/Boisset_(Cantal)
fr/wiki/Union_fédéraliste_des_communautés_européennes
fr/wiki/Borie
fr/wiki/Diane_de_Guldencrone
fr/wiki/Roger_Couderc
fr/wiki/Chabrol

maps.json
it/wiki/Nice
fr/wiki/Permis_de_tuer
fr/wiki/Numérisation
fr/wiki/Plan_marketing
de/wiki/Morgenthau-Plan
fr/wiki/T-Series
it/wiki/Wi-Fi
en/wiki/Isole_Tremiti
it/wiki/Saint
fr/wiki/Alpes
fr/wiki/Provinces_maritimes
de/wiki/Plan
en/wiki/KRQE
fr/wiki/Équipement
fr/wiki/Présentation
it/wiki/The_O.C.
fr/wiki/Mougins
it/wiki/Valore_a_rischio
fr/wiki/Commune
it/wiki/Italia
de/wiki/Etat
fr/wiki/Pierre_Joseph_de_Bourcet
de/wiki/Martin
fr/wiki/Château_de_Valrose
fr/wiki/Antibes
fr/wiki/France
fr/wiki/Série_télévisée
de/wiki/Grasse
fr/wiki/Nuit_polaire
fr/wiki/Péone
fr/wiki/Vésubie
fr/wiki/Menton_(Alpes-Maritimes)
fr/wiki/Planimétrie
fr/wiki/Château_de_Versailles
fr/wiki/Tinée
fr/wiki/Donato_Carrisi
fr/wiki/Provence
de/wiki/CAP
fr/wiki/Italien
fr/wiki/Mister_T.
fr/wiki/Comté_de_Nice
fr/wiki/Sud
fr/wiki/Cannes
fr/wiki/Var_(département)
fr/wiki/Planches
fr/wiki/Barcelone
fr/wiki/Pierre-Jean_de_Bourcet
fr/wiki/Vallon_de_Maurin
fr/wiki/Vallée
fr/wiki/Valberg
fr/wiki/Feuille
fr/wiki/David_Grimm
fr/wiki/Machu_Picchu
fr/wiki/Copie
fr/wiki/Mendrisio
fr/wiki/Représentation
fr/wiki/Paul_von_Derwies
it/wiki/Unione_europea
fr/wiki/Saint-André
de/wiki/Beaulieu
fr/wiki/Victor_Patiño-Fomeque
de/wiki/Restauration_(Geschichte)
fr/wiki/YouTube
fr/wiki/Front_italien
fr/wiki/Dépôt_de_la_Guerre
fr/wiki/Yacht
fr/wiki/Situation
fr/wiki/Perspective_(représentation)
fr/wiki/Pieds_bandés
fr/wiki/Planche
it/wiki/Giuseppe_Lascaris_di_Ventimiglia
fr/wiki/Carte
fr/wiki/Plan_sur_plan
fr/wiki/Roquebrune-sur-Argens

germanDemocraticRepublic.json
de/wiki/Ministerium_für_Staatssicherheit
de/wiki/Deutsche_Demokratische_Republik
de/wiki/AKG_Acoustics
de/wiki/Berlin
de/wiki/BRD
de/wiki/Premierminister_von_Neuseeland
de/wiki/Leipzig
de/wiki/Abt
de/wiki/Oberkommando_des_Heeres
de/wiki/Liste_der_meistaufgerufenen_YouTube-Videos
de/wiki/Abteilung
de/wiki/Pius_XII.
de/wiki/Ministerium
de/wiki/Sonderschutzgebiet
de/wiki/Johannes_XXII.
de/wiki/Information
de/wiki/Sozialistische_Einheitspartei_Deutschlands
de/wiki/Leitung
de/wiki/Bundesbeauftragter_für_die_Stasi-Unterlagen
de/wiki/Juristische_Person
de/wiki/OPK
de/wiki/West-Berlin
de/wiki/Dosa
de/wiki/Stasi-Bunker_Lübschützer_Teiche
de/wiki/Sicherung
de/wiki/Hiltpoltstein
de/wiki/Innocens
de/wiki/Bemerkung
de/wiki/Rostock
de/wiki/Büro
de/wiki/Technische_Überprüfung
de/wiki/Film
de/wiki/Zusammenarbeit
de/wiki/KD
de/wiki/BV
de/wiki/Straßenmarkierung
de/wiki/Bericht
de/wiki/Bank_deutscher_Länder
de/wiki/Verwaltungsgliederung_Berlins
de/wiki/Durchführung
de/wiki/Teil
de/wiki/Bundesamt_für_Kartographie_und_Geodäsie
de/wiki/Lehrgang
de/wiki/Westen
de/wiki/Protokoll
de/wiki/Aufklärung
de/wiki/Reichsministerium_des_Innern
de/wiki/Zusammenhang
de/wiki/Nationale_Volksarmee
de/wiki/Polen
de/wiki/Erich_Mielke
de/wiki/Deutsche_Volkspolizei
de/wiki/Hilde_Benjamin
de/wiki/Mitarbeiter
de/wiki/Hauptverwaltung_Aufklärung

slavery.json
fr/wiki/Nissan_200SX
fr/wiki/Saint-Domingue_(colonie_française)
fr/wiki/Îles_Sous-le-Vent_(Polynésie)
fr/wiki/Pieds-noirs
de/wiki/Martinique
it/wiki/Saint
de/wiki/Afrique
fr/wiki/Archives_nationales_d'outre-mer
de/wiki/Guadeloupe
fr/wiki/COL
fr/wiki/Guinée
fr/wiki/Guyane
fr/wiki/État
fr/wiki/Antilles
de/wiki/Bordeaux
fr/wiki/Amérique
de/wiki/Nantes
fr/wiki/Sénégal
it/wiki/Le_guide_del_tramonto
fr/wiki/Compagnie_des_Indes
fr/wiki/Cayenne
fr/wiki/Louisiane
fr/wiki/Papier
de/wiki/CAP
fr/wiki/Correspondance
fr/wiki/Dim_(lingerie)
it/wiki/Sainte-Chapelle
fr/wiki/Compagnie
de/wiki/Marine
fr/wiki/Port-au-Prince
fr/wiki/Île-de-France
fr/wiki/La_Rochelle
fr/wiki/Anglais
fr/wiki/Angleterre
fr/wiki/Liste_des_ministres_français_de_la_Marine_et_des_Colonies
fr/wiki/Indes
fr/wiki/Madagascar
it/wiki/Jardin_Anglais
de/wiki/Haus_Bourbon
fr/wiki/Île_de_Gorée
de/wiki/FOL
fr/wiki/Ferrari_F12berlinetta
fr/wiki/FOL
de/wiki/Fonds
fr/wiki/La_France
fr/wiki/Terre
de/wiki/Amana_Colonies
fr/wiki/Asiento
fr/wiki/Lucie
fr/wiki/Procès
fr/wiki/Gravure
fr/wiki/Ministère_des_Affaires_étrangères
it/wiki/Fabio_Galante
fr/wiki/Le_Havre
de/wiki/Basse
fr/wiki/Mémoire
fr/wiki/Toussaint_Louverture
fr/wiki/Île_Maurice
fr/wiki/Ils
de/wiki/Angola
fr/wiki/Saint-Malo
it/wiki/France
fr/wiki/B3
fr/wiki/Suriname
it/wiki/Port
fr/wiki/Société_d'Ancien_Régime
fr/wiki/Esprit_Doutre
fr/wiki/Brésil
fr/wiki/Révolution
fr/wiki/Juda
fr/wiki/Gare_de_Milan-Porta_Garibaldi
fr/wiki/Correspondance_secrète,_politique_et_littéraire
fr/wiki/Test_(psychologie)
fr/wiki/Constante_d'Euler-Mascheroni
fr/wiki/Série_télévisée
fr/wiki/Microfilm
fr/wiki/La_Réunion
de/wiki/Louis
fr/wiki/Rivière
de/wiki/Convention
fr/wiki/Léogâne
fr/wiki/E=mc2
fr/wiki/Compagnie_du_Sénégal
fr/wiki/Æ
fr/wiki/Jamaïque
fr/wiki/Lorient
fr/wiki/Français
fr/wiki/Michel_Sidibé
fr/wiki/L'Île_des_esclaves
fr/wiki/Conseil
fr/wiki/Grenade
fr/wiki/Treize_Colonies
fr/wiki/Méry

notaries.json
de/wiki/Paris
de/wiki/Marie
fr/wiki/Minutier_central_des_notaires_de_Paris
fr/wiki/Plan_local_d'urbanisme
fr/wiki/Notaire
fr/wiki/Répertoire_de_notaires
fr/wiki/Moyen-Orient
fr/wiki/Châtelet
fr/wiki/XVIe_siècle
de/wiki/Pierre
fr/wiki/Yves_Lecoq
fr/wiki/Citronnier
fr/wiki/Madeleine_Béjart
fr/wiki/Vassili_Grossman
fr/wiki/Louis_Grodecki
fr/wiki/Marie-Antoinette_d'Autriche
fr/wiki/Élections_municipales_de_2020_à_Angers
fr/wiki/Bonnet_phrygien
fr/wiki/Assassinat_d'Henri_III
it/wiki/Saint
fr/wiki/Début_de_soirée
fr/wiki/RT_(chaîne_de_télévision)
de/wiki/Liste_von_Porzellanmanufakturen_und_-herstellern
it/wiki/Jean
fr/wiki/Rue_Saint-Honoré
fr/wiki/Origine
fr/wiki/FIN
de/wiki/Germain
fr/wiki/Manche
de/wiki/Minute
fr/wiki/Claude-Louis_Berthollet
fr/wiki/Association_des_Vendéens_de_Paris_et_d'Île-de-France
fr/wiki/Étude
fr/wiki/Personnages_d'Overwatch
fr/wiki/Grand_Châtelet
fr/wiki/Moteur_de_recherche
fr/wiki/André
fr/wiki/Antoine
fr/wiki/Auberge_de_Peyrebeille
fr/wiki/Répertoire
fr/wiki/Consultation
fr/wiki/Niveau
fr/wiki/Antibes
de/wiki/Grasse
fr/wiki/Note
de/wiki/Louis
de/wiki/RE
fr/wiki/Françoise_de_Longwy,_femme_de_Philippe_Chabot
fr/wiki/Benjamin_Nivet
fr/wiki/Basse-Normandie
fr/wiki/Aurélie_Trouvé
fr/wiki/Crédit-bail
fr/wiki/Parlement
fr/wiki/Roi
fr/wiki/Marie_Guillard
fr/wiki/Liste_des_députés_de_la_XIVe_législature_de_la_Cinquième_République
fr/wiki/Charles
fr/wiki/Guillaume_le_Conquérant
it/wiki/François
it/wiki/Nicolas
fr/wiki/Monthenault
fr/wiki/Jacques
fr/wiki/Claude
fr/wiki/Louis_XI
fr/wiki/Toulouse
fr/wiki/Séverin
fr/wiki/Eustache
fr/wiki/Voltaire
fr/wiki/Louis_XIV
fr/wiki/Attention
fr/wiki/Université_Toulouse-Jean-Jaurès
fr/wiki/Mention_honorifique
de/wiki/Paul
fr/wiki/Ernest_Coyecque
fr/wiki/Histoire_de_Paris
fr/wiki/Anthologie
fr/wiki/Denis
fr/wiki/Alexandre_Bontemps
fr/wiki/Pierre_Chevalier

frenchNapoleonI.json
fr/wiki/4:48
fr/wiki/Reliure
fr/wiki/Dossier
fr/wiki/Doris_Day
fr/wiki/Bataille_d'Eckmühl
fr/wiki/37e_régiment_d'infanterie
fr/wiki/Abbaye_Sainte-Madeleine_du_Barroux
de/wiki/Landshut
fr/wiki/Raimu
fr/wiki/Cap_Roux_(Anthéor)
de/wiki/Lützen
fr/wiki/Série_télévisée
it/wiki/Unione_europea
fedenanni commented 4 years ago

@martamu just as a reference, these are the most frequent. Not sure why we don't retrieve many entities for Napoleon, I'll double check that

catholicism.json
de/wiki/Monsignore
fr/wiki/Bureau_central_des_cultes
fr/wiki/Karim_Zaz
fr/wiki/Grade
fr/wiki/Produit_intérieur_brut
fr/wiki/Cabinet
fr/wiki/Jozef_De_Kesel
it/wiki/Jean
fr/wiki/Église_Saint-André_de_Fenain
it/wiki/France
fr/wiki/Louis_XII
fr/wiki/Henri_IV_(roi_de_France)
fr/wiki/Corse
de/wiki/Pierre
fr/wiki/François_Ier_(roi_de_France)
fr/wiki/Art_urbain
de/wiki/Etat
de/wiki/Elsass
fr/wiki/Bureau_central_de_renseignements_et_d'action
fr/wiki/Wildsteig
fr/wiki/René_Magritte
fr/wiki/Centre
fr/wiki/Bourse_de_Saint_Georges
fr/wiki/Monologue_intérieur
fr/wiki/Roger_Federer
fr/wiki/Moselle
fr/wiki/Conseil_technique_de_la_prévention_spécialisée
fr/wiki/Intérieur_(topologie)
fr/wiki/Maurice_(pays)
fr/wiki/Myers_Briggs_Type_Indicator
fr/wiki/Premier_ministre
fr/wiki/Archives_nationales_(France)
fr/wiki/Jean_M._Auel
fr/wiki/Louis-Joseph_Lebret
fr/wiki/Direction_générale_de_la_Sécurité_intérieure
fr/wiki/Marcel_Proust
de/wiki/Paris
fr/wiki/Qui
it/wiki/Joseph
fr/wiki/Art
fr/wiki/Lorraine
fr/wiki/Château_de_l'Horizon
fr/wiki/Jean
fr/wiki/Fonction
fr/wiki/Coadjuteur
fr/wiki/Albert_Ier_(roi_des_Belges)
fr/wiki/Philippe_II_Auguste
de/wiki/Institut
fr/wiki/Jeunesse
fr/wiki/Islam
fr/wiki/AFS
fr/wiki/Éditions_des_archives_contemporaines
fr/wiki/45
de/wiki/Friedensvertrag_von_Versailles
fr/wiki/Le_Mont-Saint-Michel
fr/wiki/Georges_Eugène_Haussmann
fr/wiki/Félix_Tshisekedi
fr/wiki/Émile_Loubet
de/wiki/Louis
de/wiki/Paul
fr/wiki/Tom
fr/wiki/Alain_Juppé
fr/wiki/Délégation_interministérielle_à_l'aménagement_du_territoire_et_à_l'attractivité_régionale
fr/wiki/Martin
fr/wiki/Jean-Louis_Debré
fr/wiki/Conseil_représentatif_des_Français_d'outre-mer
fr/wiki/Henri
fr/wiki/Conseiller_principal_d'éducation
fr/wiki/Culte
fr/wiki/Décret
fr/wiki/Substitution
fr/wiki/Conseil_constitutionnel_(France)
fr/wiki/Charles_Delzant
fr/wiki/Daniel_Vaillant
fr/wiki/Armand_Fallières
fr/wiki/Octave_Mirbeau
fr/wiki/Gabriel_Matzneff
fr/wiki/Alexandre_le_Grand

economics.json
fr/wiki/INPI
fr/wiki/Institut_national_de_la_propriété_industrielle
en/wiki/Direction
fr/wiki/Premier_ministre_français
fr/wiki/Délégation
fr/wiki/Délégation_interministérielle_à_l'aménagement_du_territoire_et_à_l'attractivité_régionale
fr/wiki/Mettis_(bus_à_haut_niveau_de_service)
fr/wiki/Cabinet
fr/wiki/Art_urbain
de/wiki/Dossier
fr/wiki/Responsabilité_sociétale_des_entreprises
de/wiki/Industrie
de/wiki/Paris
de/wiki/Etat
en/wiki/France
de/wiki/Art
fr/wiki/Bureau
fr/wiki/Directeur_juridique
fr/wiki/Urbanisme
fr/wiki/Bruce_Willis
fr/wiki/DOM
fr/wiki/Centre
fr/wiki/Industrie
fr/wiki/Ministre
fr/wiki/Acura_TLX
fr/wiki/Qui
it/wiki/France
fr/wiki/Gamme_de_produits_alimentaires
fr/wiki/Dramaturges_par_ordre_chronologique
fr/wiki/Équipe
fr/wiki/Direction_générale_des_Médias_et_des_Industries_culturelles
fr/wiki/Commissariat
fr/wiki/Paris
fr/wiki/Viande_bovine
fr/wiki/Intérieur_(topologie)
fr/wiki/Centre_national_de_la_recherche_scientifique
fr/wiki/Institut_national_de_la_santé_et_de_la_recherche_médicale
fr/wiki/Entreprise
fr/wiki/Direction_générale_de_la_Police_nationale
fr/wiki/Elle
fr/wiki/Dommages_de_guerre
fr/wiki/Art
fr/wiki/Émile_Butscha
fr/wiki/Culture
fr/wiki/Affaire_Priore
fr/wiki/Justice
fr/wiki/Direction_de_la_science_et_technologie
fr/wiki/Albadé_Abouba
fr/wiki/Étude
de/wiki/Recherche
fr/wiki/Référence
fr/wiki/Space_Art
fr/wiki/Travail
fr/wiki/Institut_national_de_l'audiovisuel
fr/wiki/Audiovisuel
fr/wiki/Direction_générale_des_Télécommunications
it/wiki/Jean
fr/wiki/Documents
fr/wiki/Produit
fr/wiki/Secrétariat_général_des_affaires_européennes
fr/wiki/Elle_(magazine)
fr/wiki/Agriculture
de/wiki/Plan
fr/wiki/Notes
fr/wiki/Chargé_de_mission
fr/wiki/Santé
fr/wiki/Lait
fr/wiki/Secrétariat
fr/wiki/La_France
fr/wiki/Généralité
fr/wiki/Art_nouveau
fr/wiki/MST
de/wiki/Marseille
fr/wiki/Intérieur
de/wiki/Mission
fr/wiki/Boisson
fr/wiki/RTE_(entreprise)
en/wiki/Renater
fr/wiki/Conseil
fr/wiki/HH
fr/wiki/7_Arts
it/wiki/Saint
fr/wiki/CNC
it/wiki/Joint_Commission
fr/wiki/Archives
de/wiki/Kölner_Dom

firstWorldWar.json
de/wiki/BD
de/wiki/Inspekteur_des_Heeres
de/wiki/Heer
de/wiki/UA
de/wiki/Preußische_Armee
de/wiki/Freikorps_Schwarze_Jäger
de/wiki/Rudolf_Kiszling
de/wiki/Reichsbank
de/wiki/Reichskolonialamt
de/wiki/Kaiserliche_Marine
de/wiki/Berlin
de/wiki/Reichskanzlei
de/wiki/Kriegstagebuch
de/wiki/Planck-Einheiten
de/wiki/Deutsche
de/wiki/Manuskript
de/wiki/Technische_Zeichnung
de/wiki/Deutschland
de/wiki/Deutsches_Heer_(Deutsches_Kaiserreich)
de/wiki/Marinekorps_Flandern
de/wiki/Korrespondenz
de/wiki/Anlage
de/wiki/Chef
de/wiki/Armee
de/wiki/Bericht
de/wiki/VA
de/wiki/Belgien
de/wiki/Korrekturlesen
de/wiki/Kaiserlich_Japanische_Marineluftstreitkräfte
de/wiki/Septime
de/wiki/Liste_der_Infanterieregimenter_der_kaiserlich-habsburgischen_Armee_der_Frühen_Neuzeit
de/wiki/Frankreich
de/wiki/Generalkommando
de/wiki/Febre
de/wiki/Karten
de/wiki/Adjutant
de/wiki/Homeland_(Fernsehserie)
de/wiki/Memorandum
de/wiki/NR
de/wiki/Korps
de/wiki/England
de/wiki/London
de/wiki/Gardekorps
de/wiki/Holland
de/wiki/DAT
de/wiki/SMS_Fürst_Bismarck
de/wiki/Dienststelle
de/wiki/Fritz_Haber
de/wiki/Rundbild
de/wiki/Kamerun
it/wiki/National_Institute_for_Health_and_Care_Excellence
de/wiki/Kaffee
fr/wiki/Fracture_du_calcanéum
de/wiki/Kiautschou
fr/wiki/Première_Guerre_mondiale
de/wiki/Tee
fr/wiki/Niçois
de/wiki/Italien
de/wiki/Luftwaffe
de/wiki/Schlacht_an_der_Marne_(1914)
de/wiki/Jukai
de/wiki/Deutsch-Südwestafrika
de/wiki/Matthias
de/wiki/Reichsführer_SS
de/wiki/Hamburg
de/wiki/Entwerfen

genealogy.json
fr/wiki/Série_télévisée
fr/wiki/Coppet
fr/wiki/Un_été_42
fr/wiki/Arnac-Pompadour
fr/wiki/Jacques_Delors
it/wiki/Saint
de/wiki/Martin
fr/wiki/Présentation
de/wiki/Jeanne_d’Arc
it/wiki/National_Institute_for_Health_and_Care_Excellence
fr/wiki/Cantal_(département)
de/wiki/Paris
fr/wiki/Qui
fr/wiki/Fonds_souverain
fr/wiki/Sermon
it/wiki/François
fr/wiki/XIXe_siècle
fr/wiki/Catalogue
fr/wiki/Georges_Pompidou
fr/wiki/Président
fr/wiki/Martine_Aubry
fr/wiki/Rome
fr/wiki/Indochine
fr/wiki/Maladie_d'Addison
fr/wiki/Lu_et_approuvé
it/wiki/Unione_europea
fr/wiki/11
fr/wiki/Pièce
fr/wiki/Flour
fr/wiki/Saint-Santin
fr/wiki/Nos_jours_heureux
fr/wiki/J.-J.-J._Rigal
fr/wiki/Pierre_Rigal
fr/wiki/Rouziers
fr/wiki/Perrette_Pradier
fr/wiki/Marthon
fr/wiki/Berne
fr/wiki/Champvent
fr/wiki/Presse-papier_(informatique)
fr/wiki/Philippe_Sarde
de/wiki/Bernard
fr/wiki/Elle
fr/wiki/Copie
de/wiki/Pierre
fr/wiki/Montdragon
de/wiki/Marie
fr/wiki/Ils
fr/wiki/XXe_siècle
fr/wiki/Antoine
fr/wiki/Elle_(magazine)
fr/wiki/Travail
fr/wiki/NEW
fr/wiki/York
fr/wiki/Nord
de/wiki/Afrique
fr/wiki/Inde
fr/wiki/Suisse
fr/wiki/Procès
it/wiki/Jean
fr/wiki/Inventaire
fr/wiki/Corrèze_(département)
fr/wiki/Lui
fr/wiki/Sommaire
fr/wiki/Contenu_téléchargeable
fr/wiki/Clermont-Ferrand
de/wiki/François_Mitterrand
fr/wiki/Élysée
fr/wiki/Société_d'Ancien_Régime
fr/wiki/Cestas
de/wiki/Rapport
fr/wiki/Bastide
fr/wiki/Films_d'animation_originaux_de_l'Univers_DC
fr/wiki/Nom
fr/wiki/Charles
fr/wiki/Massif_central
fr/wiki/Serre
de/wiki/Turin
de/wiki/Bones_–_Die_Knochenjägerin
fr/wiki/Fondation_Maison_des_Sciences_de_l'homme
fr/wiki/1885
fr/wiki/Groupement_pour_l'Étude_de_la_Mondialisation_et_du_Développement
fr/wiki/Philippe_Montigny
fr/wiki/Aymard
fr/wiki/9_juillet
fr/wiki/Catherine_Coquery-Vidrovitch

maps.json
it/wiki/National_Institute_for_Health_and_Care_Excellence
fr/wiki/Permis_de_conduire
fr/wiki/Numérisation
fr/wiki/Plan_marketing
de/wiki/Morgenthau-Plan
fr/wiki/Série_télévisée
it/wiki/Wi-Fi
it/wiki/Saint
en/wiki/Isole_Tremiti
fr/wiki/Alpes
de/wiki/Plan
fr/wiki/Provinces_maritimes
en/wiki/KRQE
fr/wiki/Équipement
fr/wiki/Présentation
de/wiki/Etat
it/wiki/The_O.C.
fr/wiki/Mougins
it/wiki/Valore_a_rischio
fr/wiki/Antibes
fr/wiki/Commune
fr/wiki/France
de/wiki/Martin
it/wiki/Italia
de/wiki/Grasse
fr/wiki/Pierre_Joseph_de_Bourcet
fr/wiki/Château_de_Valrose
en/wiki/Direction
fr/wiki/Nuit_polaire
fr/wiki/Menton_(Alpes-Maritimes)
fr/wiki/Péone
fr/wiki/Vésubie
fr/wiki/Planimétrie
fr/wiki/Château_de_Versailles
fr/wiki/Tinée
fr/wiki/Cannes
de/wiki/CAP
fr/wiki/Donato_Carrisi
fr/wiki/Provence
fr/wiki/Italien
fr/wiki/Sud
fr/wiki/André
fr/wiki/Comté_de_Nice
fr/wiki/Mister_T.
fr/wiki/Var_(département)
fr/wiki/Planches
fr/wiki/Barcelone
fr/wiki/Pierre-Jean_de_Bourcet
fr/wiki/Vallon_de_Maurin
fr/wiki/Vallée
fr/wiki/Copie
fr/wiki/Valberg
it/wiki/Unione_europea
fr/wiki/Feuille
fr/wiki/David_Grimm
fr/wiki/Machu_Picchu
fr/wiki/Mendrisio
fr/wiki/Représentation
fr/wiki/Paul_von_Derwies
fr/wiki/Saint-André
de/wiki/Beaulieu
it/wiki/Sainte-Colombe
fr/wiki/Victor_Patiño-Fomeque
de/wiki/Restauration_(Geschichte)
fr/wiki/Dépôt_de_la_Guerre
fr/wiki/YouTube
fr/wiki/Front_italien
fr/wiki/Yacht
fr/wiki/La_France
fr/wiki/Cabinet
fr/wiki/Situation
fr/wiki/Perspective_(représentation)
fr/wiki/Ministre
fr/wiki/Cédric_O
fr/wiki/Pieds_bandés

germanDemocraticRepublic.json
de/wiki/Ministerium_für_Staatssicherheit
de/wiki/Deutsche_Demokratische_Republik
de/wiki/AKG_Acoustics
de/wiki/Berlin
de/wiki/BRD
de/wiki/Premierminister_von_Neuseeland
de/wiki/Leipzig
de/wiki/Abt
de/wiki/Oberkommando_des_Heeres
de/wiki/Liste_der_meistaufgerufenen_YouTube-Videos
de/wiki/Abteilung
de/wiki/Pius_XII.
de/wiki/Ministerium
de/wiki/Sonderschutzgebiet
de/wiki/Johannes_XXII.
de/wiki/Information
de/wiki/Sozialistische_Einheitspartei_Deutschlands
de/wiki/Leitung
de/wiki/Bundesbeauftragter_für_die_Stasi-Unterlagen
de/wiki/Juristische_Person
de/wiki/OPK
de/wiki/West-Berlin
de/wiki/Dosa
de/wiki/Stasi-Bunker_Lübschützer_Teiche
de/wiki/Sicherung
de/wiki/Hiltpoltstein
de/wiki/Innocens
de/wiki/Bemerkung
de/wiki/Rostock
de/wiki/Büro
de/wiki/Technische_Überprüfung
de/wiki/Film
de/wiki/Zusammenarbeit
de/wiki/KD
de/wiki/BV
de/wiki/Bericht
de/wiki/Straßenmarkierung
de/wiki/Bank_deutscher_Länder
de/wiki/Verwaltungsgliederung_Berlins
de/wiki/Durchführung
de/wiki/Teil
de/wiki/Bundesamt_für_Kartographie_und_Geodäsie
de/wiki/Lehrgang
de/wiki/Westen
de/wiki/Protokoll
de/wiki/Reichsministerium_des_Innern
de/wiki/Aufklärung
de/wiki/Zusammenhang
de/wiki/Nationale_Volksarmee
de/wiki/Polen
de/wiki/Erich_Mielke
de/wiki/Deutsche_Volkspolizei
de/wiki/Hilde_Benjamin
de/wiki/VIII
de/wiki/Mitarbeiter

slavery.json
it/wiki/Saint
fr/wiki/Nissan_200SX
fr/wiki/Saint-Domingue_(colonie_française)
fr/wiki/Îles_Sous-le-Vent_(Polynésie)
fr/wiki/Pieds-noirs
de/wiki/Martinique
de/wiki/Afrique
de/wiki/Guadeloupe
fr/wiki/Archives_nationales_d'outre-mer
fr/wiki/Guinée
fr/wiki/COL
fr/wiki/Guyane
fr/wiki/État
de/wiki/Bordeaux
fr/wiki/Antilles
fr/wiki/Sénégal
fr/wiki/Amérique
de/wiki/Nantes
it/wiki/Sainte-Chapelle
fr/wiki/Qui
it/wiki/France
it/wiki/Le_guide_del_tramonto
de/wiki/Paris
fr/wiki/Compagnie_des_Indes
de/wiki/Louis
de/wiki/CAP
fr/wiki/La_France
de/wiki/Marine
fr/wiki/Correspondance
fr/wiki/Cayenne
fr/wiki/Louisiane
fr/wiki/Papier
fr/wiki/France
fr/wiki/Dim_(lingerie)
fr/wiki/Compagnie
fr/wiki/Anglais
de/wiki/FOL
de/wiki/Marie
fr/wiki/Madagascar
fr/wiki/Angleterre
it/wiki/Jean
de/wiki/Fonds
it/wiki/Jardin_Anglais
fr/wiki/Ils
fr/wiki/La_Rochelle
fr/wiki/Port-au-Prince
fr/wiki/Conseil
fr/wiki/Île-de-France
fr/wiki/Procès
de/wiki/Haus_Bourbon
fr/wiki/Liste_des_ministres_français_de_la_Marine_et_des_Colonies
fr/wiki/Indes
de/wiki/VII
fr/wiki/Ferrari_F12berlinetta
fr/wiki/Île_de_Gorée
de/wiki/Pierre
fr/wiki/FOL
fr/wiki/Elle
de/wiki/Angola
fr/wiki/Terre
de/wiki/Marseille
de/wiki/Basse
de/wiki/Amana_Colonies
de/wiki/Art
de/wiki/Dossier
fr/wiki/Lucie
fr/wiki/Asiento
de/wiki/Convention
fr/wiki/Ministère_des_Affaires_étrangères
fr/wiki/Gravure
it/wiki/Port
fr/wiki/Le_Havre
fr/wiki/Mémoire
it/wiki/Fabio_Galante
fr/wiki/Français
fr/wiki/Saint-Malo
fr/wiki/Toussaint_Louverture
fr/wiki/Île_Maurice
fr/wiki/Saint_André
fr/wiki/Suriname
fr/wiki/Brésil
fr/wiki/Société_d'Ancien_Régime
fr/wiki/B3
fr/wiki/Archives
de/wiki/Paul
fr/wiki/La_Réunion
de/wiki/VIII
fr/wiki/Denis
fr/wiki/Rivière
fr/wiki/Révolution
de/wiki/20_Minuten
fr/wiki/Esprit_Doutre
de/wiki/Espagne
fr/wiki/Anne

notaries.json
de/wiki/Paris
de/wiki/Marie
fr/wiki/Minutier_central_des_notaires_de_Paris
fr/wiki/Plan_local_d'urbanisme
fr/wiki/Notaire
fr/wiki/Répertoire_de_notaires
fr/wiki/Moyen-Orient
fr/wiki/Châtelet
fr/wiki/XVIe_siècle
de/wiki/Pierre
fr/wiki/Yves_Lecoq
fr/wiki/Citronnier
fr/wiki/Madeleine_Béjart
fr/wiki/Vassili_Grossman
fr/wiki/Louis_Grodecki
fr/wiki/Marie-Antoinette_d'Autriche
fr/wiki/Élections_municipales_de_2020_à_Angers
fr/wiki/Bonnet_phrygien
fr/wiki/Assassinat_d'Henri_III
it/wiki/Saint
fr/wiki/Début_de_soirée
fr/wiki/RT_(chaîne_de_télévision)
de/wiki/Liste_von_Porzellanmanufakturen_und_-herstellern
it/wiki/Jean
fr/wiki/Rue_Saint-Honoré
fr/wiki/Origine
fr/wiki/FIN
de/wiki/Germain
fr/wiki/Manche
de/wiki/Minute
fr/wiki/Étude
fr/wiki/Claude-Louis_Berthollet
fr/wiki/Association_des_Vendéens_de_Paris_et_d'Île-de-France
fr/wiki/Personnages_d'Overwatch
fr/wiki/Grand_Châtelet
fr/wiki/Moteur_de_recherche
fr/wiki/André
fr/wiki/Antoine
fr/wiki/Auberge_de_Peyrebeille
fr/wiki/Répertoire
fr/wiki/Antibes
fr/wiki/Niveau
fr/wiki/Consultation
de/wiki/Grasse
fr/wiki/Note
de/wiki/Louis
de/wiki/RE
fr/wiki/Françoise_de_Longwy,_femme_de_Philippe_Chabot
fr/wiki/Benjamin_Nivet
fr/wiki/Basse-Normandie
fr/wiki/Aurélie_Trouvé
fr/wiki/Parlement
fr/wiki/Crédit-bail
fr/wiki/Roi
fr/wiki/Marie_Guillard
fr/wiki/Liste_des_députés_de_la_XIVe_législature_de_la_Cinquième_République
fr/wiki/Charles
it/wiki/François
it/wiki/Nicolas
fr/wiki/Guillaume_le_Conquérant
fr/wiki/Liste_d'élèves_de_l'École_supérieure_de_physique_et_de_chimie_industrielles_de_la_ville_de_Paris
fr/wiki/Numérisation
fr/wiki/Jacques
fr/wiki/Claude
fr/wiki/Toulouse
fr/wiki/Louis_XI
fr/wiki/Séverin
fr/wiki/Eustache
fr/wiki/Louis_XIV
fr/wiki/Voltaire
fr/wiki/Attention
fr/wiki/Université_Toulouse-Jean-Jaurès
de/wiki/Paul
fr/wiki/Mention_honorifique
fr/wiki/Anthologie
fr/wiki/Ernest_Coyecque
fr/wiki/Histoire_de_Paris
fr/wiki/Denis
it/wiki/National_Institute_for_Health_and_Care_Excellence

frenchNapoleonI.json
it/wiki/Unione_europea
fr/wiki/Série_télévisée
fr/wiki/Reliure
fr/wiki/48_Heures
fr/wiki/Dossier
de/wiki/Lützen
de/wiki/Landshut
fr/wiki/Cap_Roux_(Anthéor)
fr/wiki/Raimu
fr/wiki/Doris_Day
fr/wiki/Cinquième_Coalition
fr/wiki/37e_régiment_d'infanterie
fr/wiki/Abbaye_Sainte-Madeleine_du_Barroux
kerstarno commented 4 years ago

Hi @fedenanni,

I've had a closer look at the two lists of entities/concepts. Very interesting to see what's pulled out of the data - at least in some cases (e.g. the "list of most viewed YouTube videos" in the topic "German Democratic Republic").

Out of curiosity, I've put both lists in a Google Sheet to sort and compare the most discriminative and the most frequent entities/concepts per topic and to see how much they differ (or don't). You can see that in the document "20200605_EntitiesConcepts" in our Shared Folder.

A question or two following up from that comparison:

Speaking of less entities/concepts: have you had time, by any chance, to have a closer look at the topic "Napoléon" and why there aren't that many entities/concepts retrieved for this one?

Best, Kerstin

fedenanni commented 4 years ago

Hi @kerstarno, I think in general this tells us more about the data than about the topic. It might be that some of the issues we have are simply due to the lack of descriptions in certain topic (e.g., Napoleon) or the lack of overlap of vocabulary for others (like GDR). I'll explore more but it might simply be that the few entities / concepts mentioned in the descriptions are often too specific to be linked to Wikipedia correctly - I'll keep you updated

kerstarno commented 4 years ago

Hi @fedenanni,

thanks for your feedback. That was my impression as well - that it might be rather data/language-related than topic-related. Just wanted to check to see if you had any other experiences in this regard from previous projects.

Would be interesting to see, what further investigation finds, as, while some entities/concepts might be too specific, there also are quite a few in the various lists, which I'd see as too general (e.g. "Berlin" for the topic of the GDR, though I can see why this might be a really frequent one).

fedenanni commented 4 years ago

Yes, very good point. As I am combining together text from the content and the title, it might simply be that they are mentioned frequently in one of them.

martamu commented 4 years ago

Thanks @kerstarno for the list!