Closed volzinnovation closed 5 years ago
Commit 524557b führt zu fatalem Fehler, Solr Startet nicht mehr wegen:
SolrCore Initialization Failures
nudel: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException: Could not load conf for core nudel: Can't load schema /var/solr/data/nudel/conf/managed-schema: Field type text_general{class=org.apache.solr.schema.TextField,analyzer=org.apache.solr.analysis.TokenizerChain,args={positionIncrementGap=100, multiValued=true, class=solr.TextField}} does not support doc values
Siehe auch offizielles Handbuch zu Solr 5.5.5 http://archive.apache.org/dist/lucene/solr/ref-guide/apache-solr-ref-guide-5.5.pdf, dort mal suchen
Siehe dort Seite 94 ff.
DocValues are only available for specific field types. The types chosen determine the underlying Lucene docValue type that will be used. The available Solr field types are: StrField and UUIDField. If the field is single-valued (i.e., multi-valued is false), Lucene will use the SORTED type. If the field is multi-valued, Lucene will use the SORTED_SET type. Any Trie* numeric fields and EnumField. If the field is single-valued (i.e., multi-valued is false), Lucene will use the NUMERIC type. If the field is multi-valued, Lucene will use the SORTEDSET type. These Lucene types are related to how the values are sorted and stored. There are two implications of multi-valued DocValues being stored as SORTED
Das Programm TermCounter ist auf dem Index nudel5 betrieben worden und hat für alle Terme mit Dokumentfreqenz (DF) >9 die beigefügte Datei erzeugt, welche die Terme auf Kurse abbildet.
Identifikation der wesentichen Kompetenzen wäre nun ein weiterer Analyseschritt, den man entweder in einem Programm, oder aber in einer relationalen Datenbank oder in R ausführen kann, um die top x Terme pro Kurs zu bestimmen. In einer relationalen Datenbank würde z.B. man nach Kurs ID gruppieren und dann absteigenden nach TFIDF sortieren.
Die Datei ist mit GZip gepackt und entpackt ca. 9 GB groß.
Das TermCounter Programm sollte angepasst werden, um Terme auszuschiessen, die ein Komma-Zeichen (,) enthalten, sowie Terme, die Zahlen sind.
Ggf. kann mann auch in Term Counter eine Anpassung vornehmen, die nur Zeilen ausgibt wenn TFIDF > ein Treshold, momentan erzeugt es alle Kombinationen aus Kurs und Term (mehrere Milliaraden Kombinationen).
Ebenso könnte man neben der TFIDF Metrik, die in der letzten Zeile steht, noch die Wortlänge mit einbringen, so dass längere Wörter als Beschreibung der Kompetenz bevorzugt werden (weiteres Sortierkriterium), oder Multiplikationskriterium.
N-Gramme (als Kombinationen aus N-Wörtern) wurden ebenfalls nicht gebildet. Die Kompetenzbeschreibung besteht in der aktuellen Vorgehensweise aus einem einzelnen Term.
Die DocTermMatrix konnte erstellt werden und liegt im E-Learning vor.
Falsch, sie haben lediglich einen Input...
Von meinem iPhone gesendet
Am 20.11.2018 um 16:18 schrieb vonbuere notifications@github.com<mailto:notifications@github.com>:
Closed #38https://github.com/volzinnovation/HSPF-Knowledge-Graph/issues/38.
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHubhttps://github.com/volzinnovation/HSPF-Knowledge-Graph/issues/38#event-1977615521, or mute the threadhttps://github.com/notifications/unsubscribe-auth/Aldr7188L4QACElbASrdkzR2iP2o9qyiks5uxBwdgaJpZM4YDsBw.
Anpassungen an Programm bzw. Experimentieren mit Konfigurationsparamenter ist sicher noch notwendig.
Bisheriges SolR Schema unterstützt das nicht, entsprechende Felddefinition notwendig, siehe https://lucene.apache.org/solr/guide/6_6/docvalues.html
Dann neu Indexieren
Dann probieren, ob IndexReader.getTermFrequencies (document) Aufruf funktioniert in https://github.com/volzinnovation/HSPF-Knowledge-Graph/blob/master/index/de.hspf.ai.kg/src/main/java/DocTermVector.java