Digitales Wörterbuch der deutschen Sprache

Lexikalische Datenbanken

Für folgende Korpora stehen lexikalische Datenbanken mit Frequenzinformationen zur Verfügung. Die hier vorgestellte Oberfläche bildet dabei einen einfachen Zugang ohne vorausgesetzte Expertenkenntnisse.

Hinweis: Die bereitgestellten Daten beinhalten keine Informationen über eine zeitliche Zuordnung, Textklassen oder andere Metadaten. Es sind nur sog. Unigramme verzeichnet, Wortverbindungen können damit also nicht abgefragt werden. Für diese Art von Abfragen machen Sie sich gern mit DiaCollo vertraut.

Für die fortgeschrittene Nutzung empfehlen wir den direkten Zugang über unsere dstar-Umgebung, dort können Sie neben weiteren Filtern auch Gruppierungen und Berechnungen auf den Datenbanken ausführen. In dstar sind Ergebnisse auch tabsepariert und im JSON-Format abfragbar. Im hier vorliegenden System bieten wir außerdem alle Datenbanken im SQLite-Format als freien Download zur Nachnutzung an.

Korpus Kategorie Tabellen Aktualisierung Download
Historische Korpora Metakorpora 2026-04-01 8.59 GB
DTA-Kern+Erweiterungen Metakorpora 2026-04-01 1.89 GB
DWDS-Kernkorpus (1900–1999) Referenzkorpora 2025-11-26 615.11 MB
DTA-Kernkorpus (1598–1913) Referenzkorpora 2026-04-01 1.23 GB
DTA-Erweiterungen (1465–1969) Spezialkorpora 2026-04-01 1020.91 MB
Polytechnisches Journal Spezialkorpora 2025-10-02 660.85 MB
childLex Spezialkorpora 2025-11-11 40.76 MB

Die einzelnen Tabellen

Lemmata

Diese Tabelle verzeichnet alle Lemmata (Grundformen), die mindestens einmal im jeweiligen Korpus belegt sind. Außerdem wird eine Spalte „Lemma (klein)“ bereitgestellt, in der die Lemmata auf ihre kleingeschriebene Variante abgebildet sind. Das ist sinnvoll, wenn für Ihre Recherche die Groß-/Kleinschreibung keine Rolle spielt. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Lemmata im jeweiligen Korpus.

Wortformen

Diese Tabelle verzeichnet alle Wortformen im jeweiligen Korpus. Außerdem wird eine Spalte „Wortform (klein)“ bereitgestellt, in der die Wortformen auf ihre kleingeschriebene Variante abgebildet sind. Das ist sinnvoll, wenn für Ihre Recherche die Groß-/Kleinschreibung keine Rolle spielt. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Wortformen im jeweiligen Korpus.

Wortarten

Diese Tabelle verzeichnet alle vorkommenden Wortarten (Part-of-Speech-Tags) im jeweiligen Korpus. Die Annotation der Korpora im DWDS erfolgt nach dem STTS-Tagset (Stuttgart-Tübingen-Tagset) mit einigen Erweiterungen, die in der Dokumentation zur Korpussuche im DWDS dokumentiert sind. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Wortarten im jeweiligen Korpus.

Lemmata + Wortformen + Wortarten

Diese Tabelle vereint die vorgenannten Tabellen und verzeichnet die Wortformen mit ihren zugehörigen Lemmata und der annotierten Wortart (Part-of-Speech-Tag). Die Frequenzangabe bezieht sich auf die jeweilige Kombination dieser Felder im jeweiligen Korpus.

Besonderheiten historische Korpora

Für die sog. historischen Korpora, z. B. die Korpora aus dem Deutschen Textarchiv (DTA), beinhaltet die Tabelle „Wortform“ eine jeweils auf die in der heutigen Zeichensetzung üblicherweise benutzte Abbildung (s. „Software und Tools“) zeigende Form.

In der Tabelle „Lemmata + Wortformen + Wortarten“ finden Sie – neben dieser transliterierten Schreibweise in der Spalte „Wortform“ – auch die originale UTF-8-Schreibung und die auf den heutigen Sprachgebrauch mithilfe von DTA::CAB (s. „Software und Tools“) normalisierte Schreibweise.

Das folgende Beispiel illustriert die verschiedenen abfragbaren Schreibungen:

Lemma UTF-8 (Original) Wortform Normalisierung (CAB) Wortart
Satz Saͤze Säze Sätze NN

Verknüpfung mit anderen Ressourcen

Jede Zeile in den Tabellen ist mit folgenden Verweisen versehen:

Symbol Bedeutung
Symbol B Belege im Korpus anzeigen
Symbol D nur in Tabellen mit der Spalte „Lemma“: Eintrag im DWDS-Wörterbuch anzeigen (falls vorhanden)
Symbol DWB nur in Tabellen mit der Spalte „Lemma“: Eintrag im Deutschen Wörterbuch von Jacob Grimm und Wilhelm Grimm anzeigen (falls vorhanden)

Software und Tools

Bitte beachten Sie: Die Tokenisierung und Annotation der Korpora im DWDS erfolgt automatisch, dabei kann es auch zu Fehlern kommen.

Folgende Software bzw. Tools werden für die Erstellung der Datenbanken genutzt:

Komponente Aufgabe Verfügbarkeit und Lizenz
moot/WASTE Satzzerlegung und Tokenisierung GPL v3 bzw. LGPL v3
Sprachmodelle sind für Deutsch, Englisch, Französisch und Tschechisch zum Download verfügbar
moot Part-of-Speech-Tagging GPL v3 bzw. LGPL v3
DTA::CAB Normalisierung historischer Schreibweisen wie perl v5.24.1: GPL v1 (oder später) oder Perl Artistic License
unicruft UTF-8-Approximation LPGL v3
TAGH Lemmatisierung (Morphologie) closed source
SQLite Datenbank Public Domain