ZENTRUM FÜR AUGUSTINUS-FORSCHUNG

AN DER JULIUS-MAXIMILIANS-UNIVERSITÄT WÜRZBURG

ZAF Logo 3

Fecisti nos ad te, domine, et inquietum est cor nostrum donec requiescat in te.

Confessiones 1,1

Geschaffen hast du uns auf dich hin, o Herr, und unruhig ist unser Herz, bis es Ruhe findet in dir.

Bekenntnisse 1,1

Die Bedeutung der Lemmatisierung für Benutzer von Textdatenbanken

Info: Lemmatisierung bedeutet, dass die in einem Textcorpus vorkommenden Wortformen mit Hilfe von Zahlencodes ihrer jeweiligen Grundform zugeordnet wurden.

Nachteile nicht-lemmatisierter Textdatenbanken

Beispiel: Suche nach lex, legis (= Gesetz) im Werkcorpus Augustins in herkömmlichen nicht-lemmatisierten Datenbanken:

Mögliche Strategie 1: Suche nach lex und nach leg*

Problem: Gefunden werden zwar zusätzlich zu lex noch alle flektierten Formen, aber auch alle Formen des Präsensstammes und des aktiven Perfektstammes von legere (= lesen). Ebenso Formen anderer Wörter wie legalis, -e oder legitimus, -a, -um etc.

Mögliche Strategie 2: Eingabe aller möglichen Formen von lex:

Problem: Es müssen 8 verschiedene Formen gesucht werden, wobei sich eine Überschneidung mit 4 Formen des Verbums legere ergibt, die in der Ergebnisliste aussortiert werden müssen

lex  leges  lex leges
legis legum legis legum
legi legibus legi legibus
legem leges legem leges
lege legibus lege legibus

 

Vorteile lemmatisierter Textdatenbanken

Beispiel: Suche nach lex, legis = Gesetz im Werkcorpus Augustins mit Hilfe der lemmatisierten Textdatenbank des Corpus Augustinianum Gissense a Cornelio Mayer editum (CAG-online):

Eingabe in Suchmaske: l:lex

Ergebnis: Gefunden werden innerhalb weniger Sekunden ausschließlich die ca. 8.000 Wortformen von lex – identische Formen anderer Wörter werden nicht berücksichtigt.