volzinnovation / HSPF-Knowledge-Graph

Knowledge Graph for Hochschule Pforzheim
1 stars 6 forks source link

DokumentTermMatrix (DTM) bilden #38

Closed volzinnovation closed 5 years ago

volzinnovation commented 5 years ago

Bisheriges SolR Schema unterstützt das nicht, entsprechende Felddefinition notwendig, siehe https://lucene.apache.org/solr/guide/6_6/docvalues.html

Dann neu Indexieren

Dann probieren, ob IndexReader.getTermFrequencies (document) Aufruf funktioniert in https://github.com/volzinnovation/HSPF-Knowledge-Graph/blob/master/index/de.hspf.ai.kg/src/main/java/DocTermVector.java

volzinnovation commented 5 years ago

Commit 524557b führt zu fatalem Fehler, Solr Startet nicht mehr wegen:

SolrCore Initialization Failures

nudel: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException: Could not load conf for core nudel: Can't load schema /var/solr/data/nudel/conf/managed-schema: Field type text_general{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args={positionIncrementGap=100, multiValued=true, class=solr.TextField}} does not support doc values 
volzinnovation commented 5 years ago

Siehe auch offizielles Handbuch zu Solr 5.5.5 http://archive.apache.org/dist/lucene/solr/ref-guide/apache-solr-ref-guide-5.5.pdf, dort mal suchen

volzinnovation commented 5 years ago

Siehe dort Seite 94 ff.

DocValues are only available for specific field types. The types chosen determine the underlying Lucene docValue type that will be used. The available Solr field types are: StrField and UUIDField. If the field is single-valued (i.e., multi-valued is false), Lucene will use the SORTED type. If the field is multi-valued, Lucene will use the SORTED_SET type. Any Trie* numeric fields and EnumField. If the field is single-valued (i.e., multi-valued is false), Lucene will use the NUMERIC type. If the field is multi-valued, Lucene will use the SORTEDSET type. These Lucene types are related to how the values are sorted and stored. There are two implications of multi-valued DocValues being stored as SORTED

volzinnovation commented 5 years ago

Das Programm TermCounter ist auf dem Index nudel5 betrieben worden und hat für alle Terme mit Dokumentfreqenz (DF) >9 die beigefügte Datei erzeugt, welche die Terme auf Kurse abbildet.

Identifikation der wesentichen Kompetenzen wäre nun ein weiterer Analyseschritt, den man entweder in einem Programm, oder aber in einer relationalen Datenbank oder in R ausführen kann, um die top x Terme pro Kurs zu bestimmen. In einer relationalen Datenbank würde z.B. man nach Kurs ID gruppieren und dann absteigenden nach TFIDF sortieren.

Die Datei ist mit GZip gepackt und entpackt ca. 9 GB groß.

Das TermCounter Programm sollte angepasst werden, um Terme auszuschiessen, die ein Komma-Zeichen (,) enthalten, sowie Terme, die Zahlen sind.

Ggf. kann mann auch in Term Counter eine Anpassung vornehmen, die nur Zeilen ausgibt wenn TFIDF > ein Treshold, momentan erzeugt es alle Kombinationen aus Kurs und Term (mehrere Milliaraden Kombinationen).

Ebenso könnte man neben der TFIDF Metrik, die in der letzten Zeile steht, noch die Wortlänge mit einbringen, so dass längere Wörter als Beschreibung der Kompetenz bevorzugt werden (weiteres Sortierkriterium), oder Multiplikationskriterium.

N-Gramme (als Kombinationen aus N-Wörtern) wurden ebenfalls nicht gebildet. Die Kompetenzbeschreibung besteht in der aktuellen Vorgehensweise aus einem einzelnen Term.

ghost commented 5 years ago

Die DocTermMatrix konnte erstellt werden und liegt im E-Learning vor.

volzinnovation commented 5 years ago

Falsch, sie haben lediglich einen Input...

Von meinem iPhone gesendet

Am 20.11.2018 um 16:18 schrieb vonbuere notifications@github.com<mailto:notifications@github.com>:

Closed #38https://github.com/volzinnovation/HSPF-Knowledge-Graph/issues/38.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHubhttps://github.com/volzinnovation/HSPF-Knowledge-Graph/issues/38#event-1977615521, or mute the threadhttps://github.com/notifications/unsubscribe-auth/Aldr7188L4QACElbASrdkzR2iP2o9qyiks5uxBwdgaJpZM4YDsBw.

volzinnovation commented 5 years ago

Anpassungen an Programm bzw. Experimentieren mit Konfigurationsparamenter ist sicher noch notwendig.