Lexikalische Datenbanken
Für folgende Korpora stehen lexikalische Datenbanken mit Frequenzinformationen zur Verfügung. Die hier vorgestellte Oberfläche bildet dabei einen einfachen Zugang ohne vorausgesetzte Expertenkenntnisse.
Hinweis: Die bereitgestellten Daten beinhalten keine Informationen über eine zeitliche Zuordnung, Textklassen oder andere Metadaten. Es sind nur sog. Unigramme verzeichnet, Wortverbindungen können damit also nicht abgefragt werden. Für diese Art von Abfragen machen Sie sich gern mit DiaCollo vertraut.
Für die fortgeschrittene Nutzung empfehlen wir den direkten Zugang über unsere dstar-Umgebung,
dort können Sie neben weiteren Filtern auch Gruppierungen und Berechnungen auf den
Datenbanken ausführen. In dstar sind Ergebnisse auch tabsepariert und im JSON-Format
abfragbar.
Im hier vorliegenden System bieten wir außerdem alle Datenbanken im
SQLite-Format als freien Download zur
Nachnutzung an.
| Korpus | Kategorie | Tabellen | Aktualisierung | Download |
|---|---|---|---|---|
| Historische Korpora | Metakorpora | 2026-04-01 | 8.59 GB | |
| DTA-Kern+Erweiterungen | Metakorpora | 2026-04-01 | 1.89 GB | |
| DWDS-Kernkorpus (1900–1999) | Referenzkorpora | 2025-11-26 | 615.11 MB | |
| DTA-Kernkorpus (1598–1913) | Referenzkorpora | 2026-04-01 | 1.23 GB | |
| DTA-Erweiterungen (1465–1969) | Spezialkorpora | 2026-04-01 | 1020.91 MB | |
| Polytechnisches Journal | Spezialkorpora | 2025-10-02 | 660.85 MB | |
| childLex | Spezialkorpora | 2025-11-11 | 40.76 MB |
Die einzelnen Tabellen
Lemmata
Diese Tabelle verzeichnet alle Lemmata (Grundformen), die mindestens einmal im jeweiligen Korpus belegt sind. Außerdem wird eine Spalte „Lemma (klein)“ bereitgestellt, in der die Lemmata auf ihre kleingeschriebene Variante abgebildet sind. Das ist sinnvoll, wenn für Ihre Recherche die Groß-/Kleinschreibung keine Rolle spielt. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Lemmata im jeweiligen Korpus.
Wortformen
Diese Tabelle verzeichnet alle Wortformen im jeweiligen Korpus. Außerdem wird eine Spalte „Wortform (klein)“ bereitgestellt, in der die Wortformen auf ihre kleingeschriebene Variante abgebildet sind. Das ist sinnvoll, wenn für Ihre Recherche die Groß-/Kleinschreibung keine Rolle spielt. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Wortformen im jeweiligen Korpus.
Wortarten
Diese Tabelle verzeichnet alle vorkommenden Wortarten (Part-of-Speech-Tags) im jeweiligen Korpus. Die Annotation der Korpora im DWDS erfolgt nach dem STTS-Tagset (Stuttgart-Tübingen-Tagset) mit einigen Erweiterungen, die in der Dokumentation zur Korpussuche im DWDS dokumentiert sind. Die Frequenzangabe bezieht sich auf die Anzahl der Vorkommen der Wortarten im jeweiligen Korpus.
Lemmata + Wortformen + Wortarten
Diese Tabelle vereint die vorgenannten Tabellen und verzeichnet die Wortformen mit ihren zugehörigen Lemmata und der annotierten Wortart (Part-of-Speech-Tag). Die Frequenzangabe bezieht sich auf die jeweilige Kombination dieser Felder im jeweiligen Korpus.
Besonderheiten historische Korpora
Für die sog. historischen Korpora, z. B. die Korpora aus dem Deutschen Textarchiv (DTA), beinhaltet die Tabelle „Wortform“ eine jeweils auf die in der heutigen Zeichensetzung üblicherweise benutzte Abbildung (s. „Software und Tools“) zeigende Form.
In der Tabelle „Lemmata + Wortformen + Wortarten“ finden Sie – neben dieser transliterierten Schreibweise in der Spalte „Wortform“ – auch die originale UTF-8-Schreibung und die auf den heutigen Sprachgebrauch mithilfe von DTA::CAB (s. „Software und Tools“) normalisierte Schreibweise.
Das folgende Beispiel illustriert die verschiedenen abfragbaren Schreibungen:
| Lemma | UTF-8 (Original) | Wortform | Normalisierung (CAB) | Wortart |
|---|---|---|---|---|
| Satz | Saͤze | Säze | Sätze | NN |
Verknüpfung mit anderen Ressourcen
Jede Zeile in den Tabellen ist mit folgenden Verweisen versehen:
| Symbol | Bedeutung |
|---|---|
| Belege im Korpus anzeigen | |
| nur in Tabellen mit der Spalte „Lemma“: Eintrag im DWDS-Wörterbuch anzeigen (falls vorhanden) | |
| nur in Tabellen mit der Spalte „Lemma“: Eintrag im Deutschen Wörterbuch von Jacob Grimm und Wilhelm Grimm anzeigen (falls vorhanden) |
Software und Tools
Bitte beachten Sie: Die Tokenisierung und Annotation der Korpora im DWDS erfolgt automatisch, dabei kann es auch zu Fehlern kommen.
Folgende Software bzw. Tools werden für die Erstellung der Datenbanken genutzt:
| Komponente | Aufgabe | Verfügbarkeit und Lizenz |
|---|---|---|
| moot/WASTE | Satzzerlegung und Tokenisierung |
GPL v3 bzw.
LGPL v3 Sprachmodelle sind für Deutsch, Englisch, Französisch und Tschechisch zum Download verfügbar |
| moot | Part-of-Speech-Tagging | GPL v3 bzw. LGPL v3 |
| DTA::CAB | Normalisierung historischer Schreibweisen | wie perl v5.24.1: GPL v1 (oder später) oder Perl Artistic License |
| unicruft | UTF-8-Approximation | LPGL v3 |
| TAGH | Lemmatisierung (Morphologie) | closed source |
| SQLite | Datenbank | Public Domain |
LexDB in der dstar-Umgebung
- Historische Korpora
- DTA-Kern+Erweiterungen
- DWDS-Kernkorpus (1900–1999)
- DTA-Kernkorpus (1598–1913)
- DTA-Erweiterungen (1465–1969)
- Polytechnisches Journal
DiaCollo