Slide 1 :public:bg3.jpg

multilingwis

Johannes Graën
2015-11-10

Slide 2 :public:bg3.jpg

Übersicht

Konzept
Demo der Anwendung
Datenaufbereitung
Datenbankvorbereitung
Suche
Ausblick

Slide 3 :public:bg16.jpg

Konzept

↓ Slide 4

Funktionsbeschreibung

Suche in multiparallelem Korpus
- nach Übersetzungen von Mehrworteinheiten (translation spotting)
- mittels Webanwendung
  - ohne besondere Kenntnisse vorauszusetzen
- basierend auf Inhaltswörtern
  - Funktionswörter werden bei der Suche übersprungen (proximity search)
- mit Anzeige der Häufigkeiten der einzelnen Übersetzungskandidaten
  - und (guten) Exemplaren für jeden einzelnen

↓ Slide 5

vergleichbare Anwendungen

Online-Wörterbuch mit Beispielen
Übersetzungssuche
Linguistische Korpusanfrage
allgemeine Konkordanzsuche
Beispiele
- Linguee
- Tradooit
- Glosbe
- TAUS Data
- Bwananet
- bilingwis

Slide 6 :public:bg2.jpg

Demo

⇒ http://pub.cl.uzh.ch/purl/multilingwis ⇐

Slide 7 :public:bg8.jpg

Datenaufbereitung

↓ Slide 8

1. Schritt

Extraktion der Texte aus CoStEP
- alle diejenigen Sprecherbeiträge, die in allen fünf Sprachen vorliegen
  - ≈ 150k Beiträge in je fünf Sprachen
  - ≈ 220m Tokens

↓ Slide 9

2. Schritt

Annotationen
- TreeTagger für Tokenisierung, PoS-Tagging und Lemmatisierung
  - mit Anpassungen der Tokenisierungsregeln, Abkürzungslisten, Lexika, …
- Abbildung aller Tags der fünf verschiedenen Tagsets auf universelle PoS-Tags (12 UPOS-Tags)
- Regelbasierte Satzsegmentierung mithilfe der Wortformen und Tags

↓ Slide 10

3. Schritt

Alignierung
- paarweise Satzalignierung mit hunalign
  - Lemmata statt Wortformen als Eingabe
- paarweise Wortalignierung mit Giza++
  - nur Inhaltswörter als Eingabe statt ganzer Sätze
    - Inhaltswörter hier Nomen, Verben, Adjektive und Adverbien (gemäß UPOS-Tags)

Slide 11 :public:bg17.jpg

Datenbankvorbereitung

↓ Slide 12

Indizierung

symmetrisierte Wortalignierung als materialisierte Sicht (420m)
- darauf zweistufiger Index (B-Baum) über Quell- und Zieltoken (9 GB)
Lemmata mit relevanten Fremdschlüsselwerten als materialisierte Sicht
- Indizes auf Lemmata (5 GB) und Schlüsseln (mehrstufig, 5 GB)

↓ Slide 13

Suchfunktion - Definition

per Skript generierte Suchfunktionen in Datenbank
- je eine pro Anzahl Suchterme (Funktion überladen)
- erlaubt Offline-Generierung des Queryplans

↓ Slide 14

Suchfunktion - Ablauf

auf Suchterme passende Token finden (hits)
- 1. Kriterium: gleiches Satzsegment
- 2. Kriterium: nachfolgendes Token je ein bis vier Positionen nach vorangehendem
- 3. Kriterium: zwischen je zwei Token befinden sich keine weiteren mit Inhaltsworttags
Schnitt der Treffer mit symmetrisierten Wortalignierungen, anschließendes Ergänzen der dazugehörigen Lemmata
Clustern der Daten nach Lemmasequenzen der alignierten Token & Zählen der Vorkommen

Slide 15 :public:bg9.jpg

Suche

↓ Slide 16

Ablauf (1)

der Benutzer gibt im Webfrontend einen (beliebigen) Suchausdruck ein
die jeweiligen Suchterme werden lemmatisiert und nach Inhalts-/Funktionswort klassifiziert
der Datenbank-Suchfunktion wird eine Liste der identifizierten Inhaltswörter übergeben
pro Sprache wird eine nach Häufigkeit sortierte Liste korrespondierender Lemmasequenzen angezeigt
das global beste Exemplar wird eingeblendet

↓ Slide 17

Ablauf (2)

↓ Slide 18

Ablauf (3)

nach erfolgter Suche kann der Benutzer
- eine weitere Suche mit neuen Suchausdruck starten
- die Menge der Exemplare durch Auswahl einer oder mehrerer Lemmasequenzen einschränken
- in den Exemplaren blättern
- nach den gelisteten Lemmasequenzen in der jeweiligen Sprache suchen

↓ Slide 19

explorative Suche

Slide 20 :public:bg23.jpg

Ausblick

↓ Slide 21

Probleme

teilweise schlechte Wortalignierung
bei sehr vielen Treffern und Alignierungen keine Ergebnisse (Speicherlimit)
Sortierheuristik bevorzugt manchmal eher fragwürdige Exemplar

↓ Slide 22

Verbesserungsmöglichkeiten

andere Alignierungsmodelle
Herausfiltern unwahrscheinlicher Alignierungen
Harmonisieren der geschlechtsspezifischen Lemmata im Deutschen
Ziffern in Lemmata durch Platzhalter ersetzen
Limitierung der Suchergebnisse durch randomisierten Index und Filtern
alternative Lemmata desambiguieren

↓ Slide 23

Erweiterungen

Datenexport der Treffer (bzw. einer Auswahl davon)
Suche nach Wortformen und/oder PoS-Tags
Kontextanzeige für das jeweilige Exemplar
Verblemmata im Deutschen um etwaige Verbpräfixe ergänzen

Slide 24 :public:users:graen:ml_fragen.png