Im Juni 2017 wurde das Projekt bulletin4corpus an den Informatiktage vorgestellt. Dabei konnten die BesucherInnen das Korpus kennenlernen und entdecken, welche linguistischen Schätze man in mehrsprachigen Texten finden kann. Es wurden auch zwei Webapplikationen präsentiert, bei denen man selbst das Korpus erforschen konnte. Alle Links dazu finden Sie hier:
Herbst 2014: Die Nachrichten-Artikel der Credit Suisse Webseite werden gesammelt. Daraus wird ein erstes Korpus (Credit Suisse News Corpus) erstellt und seither immer erweitert.
Januar bis September 2016: Die Bulletin-Ausgaben ab 1998 sind als PDF-Dateien verfügbar. Aus diesen PDFs wird der Text extrahiert, in XML-Format umgewandelt und daraus ein Korpus (Credit Suisse PDF Bulletin Corpus) erstellt.
September bis November 2016: Die Schweizerische Nationalbibliothek scannt alle gedruckten Bulletin-Ausgaben für uns ein.
Dezember 2016: Mit Hilfe eines Texterkennungsprogramms (OCR) werden die gescannten Bulletin-Hefte in Text umgewandelt und im XML-Format gespeichert.