ENGLISH

UZH Logo b4c Logo

Informatiktage 2017

Im Juni 2017 wurde das Projekt bulletin4corpus an den Informatiktage vorgestellt. Dabei konnten die BesucherInnen das Korpus kennenlernen und entdecken, welche linguistischen Schätze man in mehrsprachigen Texten finden kann. Es wurden auch zwei Webapplikationen präsentiert, bei denen man selbst das Korpus erforschen konnte. Alle Links dazu finden Sie hier:

Schritte in Richtung Korpus

Konvertierung von HTML-Dateien

Herbst 2014: Die Nachrichten-Artikel der Credit Suisse Webseite werden gesammelt. Daraus wird ein erstes Korpus (Credit Suisse News Corpus) erstellt und seither immer erweitert.

Konvertierung von PDF-Dokumenten

Januar bis September 2016: Die Bulletin-Ausgaben ab 1998 sind als PDF-Dateien verfügbar. Aus diesen PDFs wird der Text extrahiert, in XML-Format umgewandelt und daraus ein Korpus (Credit Suisse PDF Bulletin Corpus) erstellt.

Scannen

September bis November 2016: Die Schweizerische Nationalbibliothek scannt alle gedruckten Bulletin-Ausgaben für uns ein.

OCR

Dezember 2016: Mit Hilfe eines Texterkennungsprogramms (OCR) werden die gescannten Bulletin-Hefte in Text umgewandelt und im XML-Format gespeichert.