Die Bedeutung der Lemmatisierung für Benutzer von Textdatenbanken
Info: Lemmatisierung bedeutet, dass die in einem Textcorpus vorkommenden Wortformen mit Hilfe von Zahlencodes ihrer jeweiligen Grundform zugeordnet wurden.
Nachteile nicht-lemmatisierter Textdatenbanken
Beispiel: Suche nach lex, legis (= Gesetz) im Werkcorpus Augustins in herkömmlichen nicht-lemmatisierten Datenbanken:
Mögliche Strategie 1: Suche nach lex und nach leg*
Problem: Gefunden werden zwar zusätzlich zu lex noch alle flektierten Formen, aber auch alle Formen des Präsensstammes und des aktiven Perfektstammes von legere (= lesen). Ebenso Formen anderer Wörter wie legalis, -e oder legitimus, -a, -um etc.
Mögliche Strategie 2: Eingabe aller möglichen Formen von lex:
Problem: Es müssen 8 verschiedene Formen gesucht werden, wobei sich eine Überschneidung mit 4 Formen des Verbums legere ergibt, die in der Ergebnisliste aussortiert werden müssen
lex | leges | lex | leges |
legis | legum | legis | legum |
legi | legibus | legi | legibus |
legem | leges | legem | leges |
lege | legibus | lege | legibus |
Vorteile lemmatisierter Textdatenbanken
Beispiel: Suche nach lex, legis = Gesetz im Werkcorpus Augustins mit Hilfe der lemmatisierten Textdatenbank des Corpus Augustinianum Gissense a Cornelio Mayer editum (CAG-online):
Eingabe in Suchmaske: l:lex
Ergebnis: Gefunden werden innerhalb weniger Sekunden ausschließlich die ca. 8.000 Wortformen von lex – identische Formen anderer Wörter werden nicht berücksichtigt.