User Tools


Slide 1 :public:bg3.jpg

multilingwis

Johannes Graën
2015-11-10

Slide 2 :public:bg3.jpg

Übersicht

  1. Konzept
  2. Demo der Anwendung
  3. Datenaufbereitung
  4. Datenbankvorbereitung
  5. Suche
  6. Ausblick
Slide 3 :public:bg16.jpg

Konzept

↓ Slide 4

Funktionsbeschreibung

  • Suche in multiparallelem Korpus
    • nach Übersetzungen von Mehrworteinheiten (translation spotting)
    • mittels Webanwendung
      • ohne besondere Kenntnisse vorauszusetzen
    • basierend auf Inhaltswörtern
      • Funktionswörter werden bei der Suche übersprungen (proximity search)
    • mit Anzeige der Häufigkeiten der einzelnen Übersetzungskandidaten
      • und (guten) Exemplaren für jeden einzelnen
↓ Slide 5

vergleichbare Anwendungen

Slide 6 :public:bg2.jpg
Slide 7 :public:bg8.jpg

Datenaufbereitung

↓ Slide 8

1. Schritt

  • Extraktion der Texte aus CoStEP
    • alle diejenigen Sprecherbeiträge, die in allen fünf Sprachen vorliegen
      • ≈ 150k Beiträge in je fünf Sprachen
      • ≈ 220m Tokens
↓ Slide 9

2. Schritt

  • Annotationen
    • TreeTagger für Tokenisierung, PoS-Tagging und Lemmatisierung
      • mit Anpassungen der Tokenisierungsregeln, Abkürzungslisten, Lexika, …
    • Abbildung aller Tags der fünf verschiedenen Tagsets auf universelle PoS-Tags (12 UPOS-Tags)
    • Regelbasierte Satzsegmentierung mithilfe der Wortformen und Tags
↓ Slide 10

3. Schritt

  • Alignierung
    • paarweise Satzalignierung mit hunalign
      • Lemmata statt Wortformen als Eingabe
    • paarweise Wortalignierung mit Giza++
      • nur Inhaltswörter als Eingabe statt ganzer Sätze
        • Inhaltswörter hier Nomen, Verben, Adjektive und Adverbien (gemäß UPOS-Tags)
Slide 11 :public:bg17.jpg

Datenbankvorbereitung

↓ Slide 12

Indizierung

  • symmetrisierte Wortalignierung als materialisierte Sicht (420m)
    • darauf zweistufiger Index (B-Baum) über Quell- und Zieltoken (9 GB)
  • Lemmata mit relevanten Fremdschlüsselwerten als materialisierte Sicht
    • Indizes auf Lemmata (5 GB) und Schlüsseln (mehrstufig, 5 GB)
↓ Slide 13

Suchfunktion - Definition

  • per Skript generierte Suchfunktionen in Datenbank
    • je eine pro Anzahl Suchterme (Funktion überladen)
    • erlaubt Offline-Generierung des Queryplans
↓ Slide 14

Suchfunktion - Ablauf

  1. auf Suchterme passende Token finden (hits)
    • 1. Kriterium: gleiches Satzsegment
    • 2. Kriterium: nachfolgendes Token je ein bis vier Positionen nach vorangehendem
    • 3. Kriterium: zwischen je zwei Token befinden sich keine weiteren mit Inhaltsworttags
  2. Schnitt der Treffer mit symmetrisierten Wortalignierungen, anschließendes Ergänzen der dazugehörigen Lemmata
  3. Clustern der Daten nach Lemmasequenzen der alignierten Token & Zählen der Vorkommen
Slide 15 :public:bg9.jpg

Suche

↓ Slide 16

Ablauf (1)

  1. der Benutzer gibt im Webfrontend einen (beliebigen) Suchausdruck ein
  2. die jeweiligen Suchterme werden lemmatisiert und nach Inhalts-/Funktionswort klassifiziert
  3. der Datenbank-Suchfunktion wird eine Liste der identifizierten Inhaltswörter übergeben
  4. pro Sprache wird eine nach Häufigkeit sortierte Liste korrespondierender Lemmasequenzen angezeigt
  5. das global beste Exemplar wird eingeblendet
↓ Slide 17

Ablauf (2)

↓ Slide 18

Ablauf (3)

  • nach erfolgter Suche kann der Benutzer
    • eine weitere Suche mit neuen Suchausdruck starten
    • die Menge der Exemplare durch Auswahl einer oder mehrerer Lemmasequenzen einschränken
    • in den Exemplaren blättern
    • nach den gelisteten Lemmasequenzen in der jeweiligen Sprache suchen
↓ Slide 19

explorative Suche

Slide 20 :public:bg23.jpg

Ausblick

↓ Slide 21

Probleme

  • teilweise schlechte Wortalignierung
  • bei sehr vielen Treffern und Alignierungen keine Ergebnisse (Speicherlimit)
  • Sortierheuristik bevorzugt manchmal eher fragwürdige Exemplar
↓ Slide 22

Verbesserungsmöglichkeiten

  • andere Alignierungsmodelle
  • Herausfiltern unwahrscheinlicher Alignierungen
  • Harmonisieren der geschlechtsspezifischen Lemmata im Deutschen
  • Ziffern in Lemmata durch Platzhalter ersetzen
  • Limitierung der Suchergebnisse durch randomisierten Index und Filtern
  • alternative Lemmata desambiguieren
↓ Slide 23

Erweiterungen

  • Datenexport der Treffer (bzw. einer Auswahl davon)
  • Suche nach Wortformen und/oder PoS-Tags
  • Kontextanzeige für das jeweilige Exemplar
  • Verblemmata im Deutschen um etwaige Verbpräfixe ergänzen
Slide 24 :public:users:graen:ml_fragen.png

CL Wiki

Institute of Computational Linguistics – University of Zurich