Verfügbare Korpora

Synchron

Englisch

NB: Aus Kapazitäts- und Lizenzgründen müssen Sie gesondert freigeschaltet werden, um Zugriff auf COCA/COHA zu bekommen. Wenden Sie sich an Ihre/n Dozent/in.

  • British National Corpus (BNC, 100m)
  • British National Corpus Baby (BNC-BABY, 4m)
  • British Academic Spoken English (BASE, 1.6m)
  • BROWN-FAMILY (4m), including:
    • BROWN (AmE, 1960s, 1m)
    • FROWN (AmE, 1990s, 1m)
    • LOB (BrE, 1960s, 1m)
    • F-LOB (BrE, 1990s, 1m)
  • CHILDES (Spracherwerb, 13m)
  • Corpus of Contemporary American English (COCA, 550m)
  • Corpus of Historical American English (COHA, 1810–2009, 450m)
  • ICE-Korpora (im Ausbau):
    • ICE-IRELAND (1m)
    • ICE-NZ (1m)
    • ICLE (Learner English, 2.5m)
  • In Arbeit:
    • KOLHAPUR (Indian English, 1m)
    • Wellington Corpus (WC, New Zealand English, 1m)
    • Australian Corpus of English (ACE, Australian English, 0.8m)
Europäische Sprachen

Zeitungskorpora europäischer Sprachen (via Wortschatzportal Leipzig)
jeweils 300K Sätze, ausnahme: Galizisch, 100K [GLG]:

  • LCC-DEU-NEWS-2010 (5.6m)
  • LCC-ENG-NEWS-2010 (6.2m)
  • LCC-EST-NEWSCRAWL-2011 (4.8m)
  • LCC-FIN-NEWSCRAWL-2011 (4.1m)
  • LCC-FRA-NEWS-2010 (7.0m)
  • LCC-GLG-WIKI-2012 (2.8m)
  • LCC-ITA-NEWS-2010 (7.0m)
  • LCC-NLD-MIXED-2012 (5.3m)
  • LCC-POL-NEWSCRAWL-2011 (5.2m)
  • LCC-RUS-NEWS-2011 (5.9m)
  • LCC-SLK-NEWSCRAWL-2011 (5.6m)
  • LCC-SPA-NEWS-2010 (7.1m)

Diachron

English
  • Corpus of English Dialogues (CED, 1.5m, 1560–1760)
  • Corpus of Late Modern English Texts (CLMET, 40m, 1710–1920)
  • Corpus of Oz Early English (COOEE, 2.2m,  1788–1900)
  • Dictionary of Old English Corpus (DOE)
  • LAMPETER (1640–1740, 1.3m)
  • Penn-Helsinki Corpus of Early English Correspondence (PCEEC, 1350–1710, 2.4m)
  • Penn-Helsinki Corpus of Early Modern English (PCEME, 1500–1710, 1.9m)
  • Penn-Helsinki Corpus of Modern British English (PCMBE, 1700–1910, 1.1m)
  • Penn-Helsinki Corpus of Middle English II (PCME2, c.1150–1500, 1.4m)
  • Shakespeare First Folio (1m)
Deutsch
  • DTA (Deutsches Textarchiv, 128m, 1488–1926)
  • GERMANC (0.7m, 1650–1800)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert