swissbib / content2SearchDocs

swissbib component for the processing of SearchDocs
1 stars 0 forks source link

Filtern von Standardtext bei gescannten Inhaltsverzeichnissen #38

Open oschihin opened 9 years ago

oschihin commented 9 years ago

Thema

@witzigs @guenterh ... eine alte Sache, wieder aktuell durch die Indexierung von Inhaltsverzeichnissen der PZ.BS. Von Bibliotheken gescannte Inhaltsverzeichnisse in pdf erhalten oft einen standardmässigen Header oder Footer. Dieser Text sollte bei der Volltextindexierung ausgefiltert werden.

Beispiele