This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
public:users:graen:multilingwis [2015-11-12 13:39] – Page moved from users:graen:multilingwis to public:users:graen:multilingwis Johannes Graën | public:users:graen:multilingwis [2023-09-15 20:33] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ~~REVEAL white~~ | ||
+ | {{background>: | ||
+ | ====== multilingwis ====== | ||
+ | Johannes Graën\\ | ||
+ | 2015-11-10 | ||
+ | |||
+ | |||
+ | {{background>: | ||
+ | ==== Übersicht ==== | ||
+ | - Konzept | ||
+ | - Demo der Anwendung | ||
+ | - Datenaufbereitung | ||
+ | - Datenbankvorbereitung | ||
+ | - Suche | ||
+ | - Ausblick | ||
+ | |||
+ | |||
+ | |||
+ | {{background>: | ||
+ | ===== Konzept ===== | ||
+ | |||
+ | ==== Funktionsbeschreibung ==== | ||
+ | * Suche in multiparallelem Korpus | ||
+ | * nach Übersetzungen von Mehrworteinheiten (// | ||
+ | * mittels Webanwendung | ||
+ | * ohne besondere Kenntnisse vorauszusetzen | ||
+ | * basierend auf Inhaltswörtern | ||
+ | * Funktionswörter werden bei der Suche übersprungen (// | ||
+ | * mit Anzeige der Häufigkeiten der einzelnen Übersetzungskandidaten | ||
+ | * und (guten) Exemplaren für jeden einzelnen | ||
+ | |||
+ | |||
+ | ==== vergleichbare Anwendungen ==== | ||
+ | * Online-Wörterbuch mit Beispielen | ||
+ | * Übersetzungssuche | ||
+ | * Linguistische Korpusanfrage | ||
+ | * allgemeine Konkordanzsuche | ||
+ | * Beispiele | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | |||
+ | |||
+ | {{background>: | ||
+ | ===== Demo ===== | ||
+ | => [[http:// | ||
+ | |||
+ | |||
+ | |||
+ | {{background>: | ||
+ | ===== Datenaufbereitung ===== | ||
+ | |||
+ | ==== 1. Schritt ==== | ||
+ | * Extraktion der Texte aus '' | ||
+ | * alle diejenigen Sprecherbeiträge, | ||
+ | * ≈ 150k Beiträge in je fünf Sprachen | ||
+ | * ≈ 220m Tokens | ||
+ | |||
+ | ==== 2. Schritt ==== | ||
+ | * Annotationen | ||
+ | * '' | ||
+ | * mit [[https:// | ||
+ | * Abbildung aller Tags der fünf verschiedenen Tagsets auf universelle PoS-Tags (12 UPOS-Tags) | ||
+ | * Regelbasierte Satzsegmentierung mithilfe der Wortformen und Tags | ||
+ | |||
+ | ==== 3. Schritt ==== | ||
+ | * Alignierung | ||
+ | * paarweise Satzalignierung mit '' | ||
+ | * Lemmata statt Wortformen als Eingabe | ||
+ | * paarweise Wortalignierung mit '' | ||
+ | * nur Inhaltswörter als Eingabe statt ganzer Sätze | ||
+ | * Inhaltswörter hier Nomen, Verben, Adjektive und Adverbien (gemäß UPOS-Tags) | ||
+ | |||
+ | |||
+ | {{background>: | ||
+ | ===== Datenbankvorbereitung ===== | ||
+ | |||
+ | ==== Indizierung ==== | ||
+ | * symmetrisierte Wortalignierung als materialisierte Sicht (420m) | ||
+ | * darauf zweistufiger Index (B-Baum) über Quell- und Zieltoken (9 GB) | ||
+ | * Lemmata mit relevanten Fremdschlüsselwerten als materialisierte Sicht | ||
+ | * Indizes auf Lemmata (5 GB) und Schlüsseln (mehrstufig, | ||
+ | |||
+ | |||
+ | ==== Suchfunktion - Definition ==== | ||
+ | * per Skript generierte Suchfunktionen in Datenbank | ||
+ | * je eine pro Anzahl Suchterme (Funktion überladen) | ||
+ | * erlaubt Offline-Generierung des Queryplans | ||
+ | |||
+ | |||
+ | ==== Suchfunktion - Ablauf ==== | ||
+ | - auf Suchterme passende Token finden (//hits//) | ||
+ | * **1. Kriterium: | ||
+ | * **2. Kriterium: | ||
+ | * **3. Kriterium: | ||
+ | - Schnitt der Treffer mit symmetrisierten Wortalignierungen, | ||
+ | - Clustern der Daten nach Lemmasequenzen der alignierten Token & Zählen der Vorkommen | ||
+ | |||
+ | |||
+ | |||
+ | {{background>: | ||
+ | ===== Suche ===== | ||
+ | |||
+ | |||
+ | ==== Ablauf (1) ==== | ||
+ | - der Benutzer gibt im Webfrontend einen (beliebigen) Suchausdruck ein | ||
+ | - die jeweiligen Suchterme werden lemmatisiert und nach Inhalts-/ | ||
+ | - der Datenbank-Suchfunktion wird eine Liste der identifizierten Inhaltswörter übergeben | ||
+ | - pro Sprache wird eine nach Häufigkeit sortierte Liste korrespondierender Lemmasequenzen angezeigt | ||
+ | - das global beste Exemplar wird eingeblendet | ||
+ | |||
+ | |||
+ | ==== Ablauf (2) ==== | ||
+ | {{ : | ||
+ | |||
+ | |||
+ | ==== Ablauf (3) ==== | ||
+ | * nach erfolgter Suche kann der Benutzer | ||
+ | * eine weitere Suche mit neuen Suchausdruck starten | ||
+ | * die Menge der Exemplare durch Auswahl einer oder mehrerer Lemmasequenzen einschränken | ||
+ | * in den Exemplaren blättern | ||
+ | * nach den gelisteten Lemmasequenzen in der jeweiligen Sprache suchen | ||
+ | |||
+ | |||
+ | ==== explorative Suche ==== | ||
+ | {{ : | ||
+ | |||
+ | |||
+ | |||
+ | {{background>: | ||
+ | ===== Ausblick ===== | ||
+ | |||
+ | ==== Probleme ==== | ||
+ | * teilweise schlechte Wortalignierung | ||
+ | * bei sehr vielen Treffern und Alignierungen keine Ergebnisse (Speicherlimit) | ||
+ | * Sortierheuristik bevorzugt manchmal eher fragwürdige Exemplar | ||
+ | |||
+ | |||
+ | ==== Verbesserungsmöglichkeiten ==== | ||
+ | * andere Alignierungsmodelle | ||
+ | * Herausfiltern unwahrscheinlicher Alignierungen | ||
+ | * Harmonisieren der geschlechtsspezifischen Lemmata im Deutschen | ||
+ | * Ziffern in Lemmata durch Platzhalter ersetzen | ||
+ | * Limitierung der Suchergebnisse durch randomisierten Index und Filtern | ||
+ | * alternative Lemmata desambiguieren | ||
+ | |||
+ | |||
+ | ==== Erweiterungen ==== | ||
+ | * Datenexport der Treffer (bzw. einer Auswahl davon) | ||
+ | * Suche nach Wortformen und/oder PoS-Tags | ||
+ | * Kontextanzeige für das jeweilige Exemplar | ||
+ | * Verblemmata im Deutschen um etwaige Verbpräfixe ergänzen | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | {{background>: | ||
+ | ===== ====== |