Slide 1 :public:bg3.jpg

multilingwis

Johannes Graën
2015-11-10

Slide 2 :public:bg3.jpg

Übersicht

  1. Konzept
  2. Demo der Anwendung
  3. Datenaufbereitung
  4. Datenbankvorbereitung
  5. Suche
  6. Ausblick
Slide 3 :public:bg16.jpg

Konzept

↓ Slide 4

Funktionsbeschreibung

↓ Slide 5

vergleichbare Anwendungen

Slide 6 :public:bg2.jpg

Demo

http://pub.cl.uzh.ch/purl/multilingwis

Slide 7 :public:bg8.jpg

Datenaufbereitung

↓ Slide 8

1. Schritt

↓ Slide 9

2. Schritt

↓ Slide 10

3. Schritt

Slide 11 :public:bg17.jpg

Datenbankvorbereitung

↓ Slide 12

Indizierung

↓ Slide 13

Suchfunktion - Definition

↓ Slide 14

Suchfunktion - Ablauf

  1. auf Suchterme passende Token finden (hits)
    • 1. Kriterium: gleiches Satzsegment
    • 2. Kriterium: nachfolgendes Token je ein bis vier Positionen nach vorangehendem
    • 3. Kriterium: zwischen je zwei Token befinden sich keine weiteren mit Inhaltsworttags
  2. Schnitt der Treffer mit symmetrisierten Wortalignierungen, anschließendes Ergänzen der dazugehörigen Lemmata
  3. Clustern der Daten nach Lemmasequenzen der alignierten Token & Zählen der Vorkommen
Slide 15 :public:bg9.jpg

Suche

↓ Slide 16

Ablauf (1)

  1. der Benutzer gibt im Webfrontend einen (beliebigen) Suchausdruck ein
  2. die jeweiligen Suchterme werden lemmatisiert und nach Inhalts-/Funktionswort klassifiziert
  3. der Datenbank-Suchfunktion wird eine Liste der identifizierten Inhaltswörter übergeben
  4. pro Sprache wird eine nach Häufigkeit sortierte Liste korrespondierender Lemmasequenzen angezeigt
  5. das global beste Exemplar wird eingeblendet
↓ Slide 17

Ablauf (2)

↓ Slide 18

Ablauf (3)

↓ Slide 19

explorative Suche

Slide 20 :public:bg23.jpg

Ausblick

↓ Slide 21

Probleme

↓ Slide 22

Verbesserungsmöglichkeiten

↓ Slide 23

Erweiterungen

Slide 24 :public:users:graen:ml_fragen.png