public:users:graen:multilingwis
multilingwis
Johannes Graën
2015-11-10
Übersicht
- Konzept
- Demo der Anwendung
- Datenaufbereitung
- Datenbankvorbereitung
- Suche
- Ausblick
Konzept
Funktionsbeschreibung
- Suche in multiparallelem Korpus
- nach Übersetzungen von Mehrworteinheiten (translation spotting)
- mittels Webanwendung
- ohne besondere Kenntnisse vorauszusetzen
- basierend auf Inhaltswörtern
- Funktionswörter werden bei der Suche übersprungen (proximity search)
- mit Anzeige der Häufigkeiten der einzelnen Übersetzungskandidaten
- und (guten) Exemplaren für jeden einzelnen
vergleichbare Anwendungen
- Online-Wörterbuch mit Beispielen
- Übersetzungssuche
- Linguistische Korpusanfrage
- allgemeine Konkordanzsuche
- Beispiele
Datenaufbereitung
1. Schritt
- Extraktion der Texte aus
CoStEP
- alle diejenigen Sprecherbeiträge, die in allen fünf Sprachen vorliegen
- ≈ 150k Beiträge in je fünf Sprachen
- ≈ 220m Tokens
2. Schritt
- Annotationen
TreeTagger
für Tokenisierung, PoS-Tagging und Lemmatisierung- mit Anpassungen der Tokenisierungsregeln, Abkürzungslisten, Lexika, …
- Abbildung aller Tags der fünf verschiedenen Tagsets auf universelle PoS-Tags (12 UPOS-Tags)
- Regelbasierte Satzsegmentierung mithilfe der Wortformen und Tags
3. Schritt
- Alignierung
- paarweise Satzalignierung mit
hunalign
- Lemmata statt Wortformen als Eingabe
- paarweise Wortalignierung mit
Giza++
- nur Inhaltswörter als Eingabe statt ganzer Sätze
- Inhaltswörter hier Nomen, Verben, Adjektive und Adverbien (gemäß UPOS-Tags)
Datenbankvorbereitung
Indizierung
- symmetrisierte Wortalignierung als materialisierte Sicht (420m)
- darauf zweistufiger Index (B-Baum) über Quell- und Zieltoken (9 GB)
- Lemmata mit relevanten Fremdschlüsselwerten als materialisierte Sicht
- Indizes auf Lemmata (5 GB) und Schlüsseln (mehrstufig, 5 GB)
Suchfunktion - Definition
- per Skript generierte Suchfunktionen in Datenbank
- je eine pro Anzahl Suchterme (Funktion überladen)
- erlaubt Offline-Generierung des Queryplans
Suchfunktion - Ablauf
- auf Suchterme passende Token finden (hits)
- 1. Kriterium: gleiches Satzsegment
- 2. Kriterium: nachfolgendes Token je ein bis vier Positionen nach vorangehendem
- 3. Kriterium: zwischen je zwei Token befinden sich keine weiteren mit Inhaltsworttags
- Schnitt der Treffer mit symmetrisierten Wortalignierungen, anschließendes Ergänzen der dazugehörigen Lemmata
- Clustern der Daten nach Lemmasequenzen der alignierten Token & Zählen der Vorkommen
Suche
Ablauf (1)
- der Benutzer gibt im Webfrontend einen (beliebigen) Suchausdruck ein
- die jeweiligen Suchterme werden lemmatisiert und nach Inhalts-/Funktionswort klassifiziert
- der Datenbank-Suchfunktion wird eine Liste der identifizierten Inhaltswörter übergeben
- pro Sprache wird eine nach Häufigkeit sortierte Liste korrespondierender Lemmasequenzen angezeigt
- das global beste Exemplar wird eingeblendet
Ablauf (3)
- nach erfolgter Suche kann der Benutzer
- eine weitere Suche mit neuen Suchausdruck starten
- die Menge der Exemplare durch Auswahl einer oder mehrerer Lemmasequenzen einschränken
- in den Exemplaren blättern
- nach den gelisteten Lemmasequenzen in der jeweiligen Sprache suchen
Ausblick
Probleme
- teilweise schlechte Wortalignierung
- bei sehr vielen Treffern und Alignierungen keine Ergebnisse (Speicherlimit)
- Sortierheuristik bevorzugt manchmal eher fragwürdige Exemplar
Verbesserungsmöglichkeiten
- andere Alignierungsmodelle
- Herausfiltern unwahrscheinlicher Alignierungen
- Harmonisieren der geschlechtsspezifischen Lemmata im Deutschen
- Ziffern in Lemmata durch Platzhalter ersetzen
- Limitierung der Suchergebnisse durch randomisierten Index und Filtern
- alternative Lemmata desambiguieren
Erweiterungen
- Datenexport der Treffer (bzw. einer Auswahl davon)
- Suche nach Wortformen und/oder PoS-Tags
- Kontextanzeige für das jeweilige Exemplar
- Verblemmata im Deutschen um etwaige Verbpräfixe ergänzen
public/users/graen/multilingwis.txt · Last modified: 2023-09-15 20:33 by 127.0.0.1