Lexikalische Datenbanken

Für folgende Korpora stehen lexikalische Datenbanken mit Frequenzinformationen zur Verfügung. Die hier vorgestellte Oberfläche bildet dabei einen einfachen Zugang ohne vorausgesetzte Expertenkenntnisse.

Hinweis: Die bereitgestellten Daten beinhalten keine Informationen über eine zeitliche Zuordnung, Textklassen oder andere Metadaten. Es sind nur sog. Unigramme verzeichnet, Wortverbindungen können damit also nicht abgefragt werden. Für diese Art von Abfragen machen Sie sich gern mit DiaCollo vertraut.

Für die fortgeschrittene Nutzung empfehlen wir den direkten Zugang über unsere dstar-Umgebung, dort können Sie neben weiteren Filtern auch Gruppierungen und Berechnungen auf den Datenbanken ausführen. In dstar sind Ergebnisse auch tabsepariert und im JSON-Format abfragbar. Im hier vorliegenden System bieten wir außerdem alle Datenbanken im SQLite-Format als freien Download zur Nachnutzung an.

Korpus	Kategorie	Tabellen	Aktualisierung	Download
Historische Korpora	Metakorpora	Lemmata Wortformen Wortarten Lemmata + Wortformen + Wortarten	2026-04-01	8.59 GB
DTA-Kern+Erweiterungen	Metakorpora	Lemmata Wortformen Wortarten Lemmata + Wortformen + Wortarten	2026-04-01	1.89 GB
DWDS-Kernkorpus (1900–1999)	Referenzkorpora	Lemmata Wortformen Wortarten Lemmata + Wortformen + Wortarten	2025-11-26	615.11 MB
DTA-Kernkorpus (1598–1913)	Referenzkorpora	Lemmata Wortformen Wortarten Lemmata + Wortformen + Wortarten	2026-04-01	1.23 GB
DTA-Erweiterungen (1465–1969)	Spezialkorpora	Lemmata Wortformen Wortarten Lemmata + Wortformen + Wortarten	2026-04-01	1020.91 MB
Polytechnisches Journal	Spezialkorpora	Lemmata Wortformen Wortarten Lemmata + Wortformen + Wortarten	2025-10-02	660.85 MB
childLex	Spezialkorpora	Lemmata Wortformen Wortarten Lemmata + Wortformen + Wortarten	2025-11-11	40.76 MB

Die einzelnen Tabellen

Lemmata

Diese Tabelle verzeichnet alle Lemmata (Grundformen), die mindestens einmal im jeweiligen Korpus belegt sind. Außerdem wird eine Spalte „Lemma (klein)“ bereitgestellt, in der die Lemmata auf ihre kleingeschriebene Variante abgebildet sind. Das ist sinnvoll, wenn für Ihre Recherche die Groß-/Kleinschreibung keine Rolle spielt. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Lemmata im jeweiligen Korpus.

Wortformen

Diese Tabelle verzeichnet alle Wortformen im jeweiligen Korpus. Außerdem wird eine Spalte „Wortform (klein)“ bereitgestellt, in der die Wortformen auf ihre kleingeschriebene Variante abgebildet sind. Das ist sinnvoll, wenn für Ihre Recherche die Groß-/Kleinschreibung keine Rolle spielt. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Wortformen im jeweiligen Korpus.

Wortarten

Diese Tabelle verzeichnet alle vorkommenden Wortarten (Part-of-Speech-Tags) im jeweiligen Korpus. Die Annotation der Korpora im DWDS erfolgt nach dem STTS-Tagset (Stuttgart-Tübingen-Tagset) mit einigen Erweiterungen, die in der Dokumentation zur Korpussuche im DWDS dokumentiert sind. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Wortarten im jeweiligen Korpus.

Lemmata + Wortformen + Wortarten

Diese Tabelle vereint die vorgenannten Tabellen und verzeichnet die Wortformen mit ihren zugehörigen Lemmata und der annotierten Wortart (Part-of-Speech-Tag). Die Frequenzangabe bezieht sich auf die jeweilige Kombination dieser Felder im jeweiligen Korpus.

Besonderheiten historische Korpora

Für die sog. historischen Korpora, z. B. die Korpora aus dem Deutschen Textarchiv (DTA), beinhaltet die Tabelle „Wortform“ eine jeweils auf die in der heutigen Zeichensetzung üblicherweise benutzte Abbildung (s. „Software und Tools“) zeigende Form.

In der Tabelle „Lemmata + Wortformen + Wortarten“ finden Sie – neben dieser transliterierten Schreibweise in der Spalte „Wortform“ – auch die originale UTF-8-Schreibung und die auf den heutigen Sprachgebrauch mithilfe von DTA::CAB (s. „Software und Tools“) normalisierte Schreibweise.

Das folgende Beispiel illustriert die verschiedenen abfragbaren Schreibungen:

Lemma	UTF-8 (Original)	Wortform	Normalisierung (CAB)	Wortart
Satz	Saͤze	Säze	Sätze	NN

Verknüpfung mit anderen Ressourcen

Jede Zeile in den Tabellen ist mit folgenden Verweisen versehen:

Symbol	Bedeutung
	Belege im Korpus anzeigen
	nur in Tabellen mit der Spalte „Lemma“: Eintrag im DWDS-Wörterbuch anzeigen (falls vorhanden)
	nur in Tabellen mit der Spalte „Lemma“: Eintrag im Deutschen Wörterbuch von Jacob Grimm und Wilhelm Grimm anzeigen (falls vorhanden)

Software und Tools

Bitte beachten Sie: Die Tokenisierung und Annotation der Korpora im DWDS erfolgt automatisch, dabei kann es auch zu Fehlern kommen.

Folgende Software bzw. Tools werden für die Erstellung der Datenbanken genutzt:

Komponente	Aufgabe	Verfügbarkeit und Lizenz
moot/WASTE	Satzzerlegung und Tokenisierung	GPL v3 bzw. LGPL v3 Sprachmodelle sind für Deutsch, Englisch, Französisch und Tschechisch zum Download verfügbar
moot	Part-of-Speech-Tagging	GPL v3 bzw. LGPL v3
DTA::CAB	Normalisierung historischer Schreibweisen	wie perl v5.24.1: GPL v1 (oder später) oder Perl Artistic License
unicruft	UTF-8-Approximation	LPGL v3
TAGH	Lemmatisierung (Morphologie)	closed source
SQLite	Datenbank	Public Domain

LexDB in der dstar-Umgebung

DiaCollo