dlex

Tabellen

dlexDB enthält derzeit 21 Tabellen:

Tabellen auf der Grundlage des annotierten Korpus:

Diese Tabellen basieren auf dem Begriff des annotierten Types, d.i. ein orthographisches Type zusammen mit einem zugewiesenen Part-of-Speech-Tag und zugehörigem Lemma. Bigramme sind Zweiersequenzen von solchen Types, Trigramme Dreiersequenzen.

Tabellen auf der Grundlage desselben Korpus ohne Annotation:

Diese Tabellen basieren auf dem Begriff des rein orthographisch definierten Types. In dlexDB wird bei Types zwischen Groß- und Kleinschreibung unterschieden. Es gibt ebenfalls Bi- und Trigramme von Types.

Tabellen auf der Grundlage einer schreibungsnormalisierten Korpusversion:

Diese Tabellen basieren auf dem Begriff des schreibungsnormalisierten Types. Diese sind einer schreibungsnormalisierten Version des Korpus entnommen und erscheinen vollständig in Kleinbuchstaben. Dadurch erhalten Sie Zugriff auf Frequenzen und andere Maße, die ohne Berücksichtigung von Groß-/Kleinschreibung berechnet wurden.

Zeichen, Zeichenbigramme, Zeichentrigramme:

Zeichen
Zeichenbigramme
Zeichentrigramme
Zeichen DC (schreibungsnormalisiert)
Zeichenbigramme DC (schreibungsnormalisiert)
Zeichentrigramme DC (schreibungsnormalisiert)

Diese Tabellen enthalten sublexikalische Informationen: alle Zeichen, Zeichenbigramm und Zeichentrigramme, die innerhalb von Types in dlexDB vorkommen.

Linguistische Entitäten:

Lemmata sind Grund- oder Zitierformen, die den tatsächlich im Korpus vorkommenden Types automatisch zugeordnet wurden. Die Silben sind das Ergebnis unseres ebenfalls automatisierten Silbifizierungsprozesses.

Types und ihre orthographischen Nachbarn:

Nachbarn Coltheart
Nachbarn Levenshtein
Nachbarn Coltheart DC (schreibungsnormalisiert)
Nachbarn Levenshtein DC (schreibungsnormalisiert)

Während die Anzahl (und die kumulative Frequenz) der orthographischen Nachbarn zu jedem Type in der Types-Tabelle angegeben wird, listen diese Tabellen die benachbarten Types selbst auf.

Inhalt

Aktuelle Version

0.3: Neue Tabellen: alle Maße auch schreibungsunabhängig verfügbar