Slide 1 :public:bg3.jpg
multilingwis
Johannes Graën
2015-11-10
Slide 2 :public:bg3.jpg
Übersicht
Konzept
Demo der Anwendung
Datenaufbereitung
Datenbankvorbereitung
Suche
Ausblick
Slide 3 :public:bg16.jpg
Konzept
↓ Slide 4
↓ Slide 5
vergleichbare Anwendungen
Online-Wörterbuch mit Beispielen
Übersetzungssuche
Linguistische Korpusanfrage
allgemeine Konkordanzsuche
Beispiele
Slide 6 :public:bg2.jpg
Slide 7 :public:bg8.jpg
Datenaufbereitung
↓ Slide 8
1. Schritt
Extraktion der Texte aus
CoStEP
↓ Slide 9
2. Schritt
Annotationen
TreeTagger
für Tokenisierung, PoS-Tagging und Lemmatisierung
mit
Anpassungen der Tokenisierungsregeln, Abkürzungslisten, Lexika, …
Abbildung aller Tags der fünf verschiedenen Tagsets auf universelle PoS-Tags (12 UPOS-Tags)
Regelbasierte Satzsegmentierung mithilfe der Wortformen und Tags
↓ Slide 10
Slide 11 :public:bg17.jpg
Datenbankvorbereitung
↓ Slide 12
↓ Slide 13
Suchfunktion - Definition
↓ Slide 14
Suchfunktion - Ablauf
auf Suchterme passende Token finden (hits)
1. Kriterium: gleiches Satzsegment
2. Kriterium: nachfolgendes Token je ein bis vier Positionen nach vorangehendem
3. Kriterium: zwischen je zwei Token befinden sich keine weiteren mit Inhaltsworttags
Schnitt der Treffer mit symmetrisierten Wortalignierungen, anschließendes Ergänzen der dazugehörigen Lemmata
Clustern der Daten nach Lemmasequenzen der alignierten Token & Zählen der Vorkommen
Slide 15 :public:bg9.jpg
Suche
↓ Slide 16
Ablauf (1)
der Benutzer gibt im Webfrontend einen (beliebigen) Suchausdruck ein
die jeweiligen Suchterme werden lemmatisiert und nach Inhalts-/Funktionswort klassifiziert
der Datenbank-Suchfunktion wird eine Liste der identifizierten Inhaltswörter übergeben
pro Sprache wird eine nach Häufigkeit sortierte Liste korrespondierender Lemmasequenzen angezeigt
das global beste Exemplar wird eingeblendet
↓ Slide 17
Ablauf (2)
↓ Slide 18
↓ Slide 19
explorative Suche
Slide 20 :public:bg23.jpg
Ausblick
↓ Slide 21
Probleme
teilweise schlechte Wortalignierung
bei sehr vielen Treffern und Alignierungen keine Ergebnisse (Speicherlimit)
Sortierheuristik bevorzugt manchmal eher fragwürdige Exemplar
↓ Slide 22
Verbesserungsmöglichkeiten
andere Alignierungsmodelle
Herausfiltern unwahrscheinlicher Alignierungen
Harmonisieren der geschlechtsspezifischen Lemmata im Deutschen
Ziffern in Lemmata durch Platzhalter ersetzen
Limitierung der Suchergebnisse durch randomisierten Index und Filtern
alternative Lemmata desambiguieren
↓ Slide 23
Erweiterungen
Datenexport der Treffer (bzw. einer Auswahl davon)
Suche nach Wortformen und/oder PoS-Tags
Kontextanzeige für das jeweilige Exemplar
Verblemmata im Deutschen um etwaige Verbpräfixe ergänzen
Slide 24 :public:users:graen:ml_fragen.png