Institut für Computerlinguistik, Universität Zürich, Lizenz: Creative Commons Attribution-ShareAlike 4.0
Viele Einträge stammen (mit freundlicher Genehmigung) aus http://www.pledarigrond.ch, welche unter CC Attribution 4.0 International veröffentlicht sind.
Reto Baumgartner, Martina Bachmann, Rolf Badat, Daniel Hegglin, Susanna Tron, Melanie Widmer, Nora Lötscher, Noëmi Aepli, Martin Cantieni, Victoria Mosca
Morphologieanalyse für Rumantsch Grischun
Dies ist die konzeptuelle Dokumentation des finite-state-basierten Morphologiesystem für die schweizerische Landessprache Rumantsch Grischun. Teilweise sind auch die traditionellen Standardvarietäten des Rätoromanischen behandelt. Die linguistische Formalisierung orientiert sich an existierenden Systemen für die nah verwandte Sprache Italienisch.
Die Grammatik von Caduff et al (2009) dient als Grundlage für die Wortbildung. Zudem wurde die Grammatik Lia Rumantscha (2006) für linguistische Fragen beigezogen.
Die Wortlisten stammen grösstenteils aus dem Pledari grond online der Lia Rumantscha.
Die Wahl der Tags folgte den Empfehlungen von Beesley und Karttunen (2003, 335-366). Bei Zweifelsfällen wurde das Online-Morphologieanalysesystem von Xerox Corporation (2013) für Italienisch verwendet.
Das Morphologiesystem lässt sich einfach mit dem Build-Werkzeug make
kompilieren. Die Voraussetzung für die Installation sind die Finite-State-Werkzeuge von Xerox (xfst) oder alternativ Mans Huldens Open-Source-Variante Foma (foma). Im folgenden bezeichnet xfst/foma
das jeweils verwendete Werkzeug.
Für die traditionellen Schriftidiome existiert ein Behelf, der mit ein paar wenigen gelisteten Formen und regelmässigen Ersetzungen von Buchstaben oder Buchstabengruppen im Rumantsch Grischun die Formen der traditionellen Schriftidiome bildet. Damit können aber nicht alle Formen erkannt werden, weil sich die Schriftidiome manchmal stark vom Rumantsch Grischun unterscheiden.
Für die Installation müssen die Dateien des Archivs im gewünschten Ordner entpackt werden und dort können mit folgenden Kommandos die binären Netzwerke kompiliert und gespeichert werden:
Befehl | Erklärung |
---|---|
make |
(für die Installation mit foma) |
make -f Makefile-foma |
(für die Installation mit foma) |
make -f Makefile-idioms |
(Erkennung der Schriftidiome, mit xfst) |
make -f Makefile-idioms-foma |
(Erkennung der Schriftidiome, mit foma) |
Mit diesen Kommandos können die Netzwerke nach Änderungen in den Wörterlisten oder der weiteren Verarbeitung aktualisiert werden.
Die bei der Installation erstellten Dateien mit .fst können in xfst/foma geladen werden und dort weiterverwendet werden mit:
xfst[0]: load stack GrischunGuessing.fst
oder sie können auf der Kommandozeile für die Analyse mittels lookup/flookup verwendet werden:
$ lookup Grischun.fst < tokenis-Infile.txt > Outfile.txt
+Abbr Abkürzung
+Adj Adjektiv
+Adv Adverb
+Art Artikel
+Conj Konjunktion
+Dig Zahlen in Ziffernschreibung
+For Fremdwörter (ausser wenn Namen)
+Initial Initialenabkürzungen wie A.
+Interj Interjektion
+Let Buchstabe
+Noun Substantiv
+Num Zahlwörter
+Prep Präposition
+Pron Pronomen
+Prop Namen
+Prt Partikel (Negationspartikel)
+Punc Satzzeichen
+PUNCT weitere Zeichen im Satz
+Rom römische Zahlen
+Subj Subjunktionen
+Verb Verb
Pronomen:
+Pron +Dem Demonstrativpronomen
+Pron +Indef Indefinitpronomen
+Pron +Interrog Interrogativpronomen
+Pron +Pers Personalpronomen
+Pron +Poss Possessivpronomen
+Pron +Refl Reflexivpronomen
Zahlen:
+Dig +Card Kardinalzahlen in Ziffern
+Dig +Dec Dezimalzahlen
+Dig +Degree Gradangaben
+Dig +Ord Ordinalzahlen in Ziffern
+Dig +Percent Prozentzahlen
+Num +Card Kardinalzahlen
+Num +Ord Ordinalzahlen
+Num +Adj Multiplikativzahlen
+Rom +Card Römische Kardinalzahlen
+Rom +Ord Römische Ordinalzahlen
Satzzeichen:
+Punc +Beg öffnende Satzzeichen
+Punc +Mid mittlere Satzzeichen
+Punc +End schliessende Satzzeichen
Partikel:
+Prt +Neg Negationspartikel (*betg*, *na*, *n'* *nun*)
Abkürzungen:
+Noun +Abbr Abkürzungen von Substantiven
Kasus:
+Nom Nominativ
+Acc Akkusativ
+AccDat Akkusativ oder Dativ
Numerus:
+Sg Singular
+Pl Plural
Genus:
+Fem Feminin
+Masc Maskulin
+MF Maskulin oder feminin
Person:
+1P Erste Person
+2P Zweite Person
+3P Dritte Person
Definitheit:
+Def Bestimmt
+Indef Unbestimmt
Steigerung:
+Comp unregelmässiger Komparativ
+Sup absoluter Superlativ
Betontheit:
+Aton unbetont
+Ton betont
Verbformen:
+PresInd Präsens Indikativ
+ImpInd Imperfekt Indikativ
+Con Konjunktiv
+Cond Konditional
+Impv Imperativ
+Inf Infinitiv
+Gerund Gerundium
+PastPart Partizip Vergangenheit
Derivationsangaben, Klitika:
ˆDB Derivationsgrenze
ˆ| Grenze für Klitika (Pronomen, bestimmte Artikel)
Diverse:
* Grossschreibung
+UNKNOWN Unbekannte Form
+Apo Apostrophierte Form oder mit Hiatustilger (z.B. *ed* statt *e* vor Vokal)
+Typo Vertipper (Korrigierte Form kann in 4. Spalte mit @KORRIGIERT eingetragen werden.)
+Lingo Ein linguistischer Fehler (anderes Idiom)
Die Tags +UNKNOWN
und *
können in collection-RG.xfst
geändert werden. Für die Kompilierung mit den Schriftidiomen können die Tags am Beginn der Datei collection.xfst
geändert werden.
Abkürzungen (+Abbr
) werden unabhängig von der Wortart gesetzt. Z.B. resp. oder * *.
Adjektive sind folgendermassen markiert:
Lemma | Wortart | Steigerungsstufe | Genus | Numerus|
------|---------|------------------|-------|--------|
bun | +Adj | |+Masc |+Sg |
| | +Comp |+Fem |+Pl |
| | +Sup
Die Markierung für den Komparativ wird nur für die unregelmässige Steigerung verwendet. Gleichzeitig steht er auch, wenn eine entsprechende Adjektivform superlativisch verwendet wird. Die Markierung für den Superlativ steht für Formen mit der Endung ‹-ischem›
, die nicht eine Steigerungsform im engen Sinn, sondern eine Intensivierungen ausdrückt. Für den Positiv steht keine Markierung.
Die Integration der Adjektive findet in adj/adj.xfst
statt. Es wird eine Aufteilung der Adjektive in verschiedene Kategorien verwendet.
Wie regelmässige Adjektive (wie calm – calma) werden auch die Adjektive mit Konsonantenverdoppelung vor der femininen Endung (wie brut – brutta) und Adjektive mit flüchtigem Vokal (wie liber – libra) behandelt. Durch eine vorausgehende Behandlung können alle schliesslich wie regelmässige Adjektive behandelt werden. Die drei Adjektivuntergruppen sind in folgenden Dateien aufgelistet:
wordlists/adj-reg.txt
für die ganz regelmässigen Adjektive. Diese Liste sollte erweitert werden.wordlists/asj-doubling.txt
für die Adjektive mit Konsonantenverdopplung. Diese Liste wurde mit Pledari-Grond abgeglichen, insofern dort spezielle Annotation zur femininen Form vorhanden sind.wordlists/adj-e.txt
für die Adjektive mit flüchtigem Vokal oder weiteren Besonderheiten im Zusammenhang mit dem Laut e.wordlists/adj-glia.txt
für Adjektive mit i- oder u-Einfügung in der femininen Form (multiling)
Diese Adjektive enden in -à oder -ì (affectuà – affectuada oder partì – partida). Die meisten sind Partizipien, die im Pledari grond online als Lemma aufgelistet sind.
Diese Adjektive sind aufgelistet in:
Für die unveränderlichen Adjektive wurden die gleichen Tags verwendet wie für die regelmässigen Adjektive. Somit ist die Analyse nie eindeutig möglich, aber die Einheitlichkeit ist bewahrt. Auf den Superlativ wurde verzichtet, da nicht klar ist, ob und wie dieser gebildet werden könnte. Die unveränderlichen Adjektive sind aufgelistet in der Datei wordlists/adj-inv.txt
.
Die unregelmässigen Adjektive teilen sich in zwei Gruppen auf, nämlich in diejenigen mit einer unregelmässigen Steigerung und diejenigen mit einer unregelmässigen Formenbildung. Die Formen sind komplett in lexc geschrieben und überschreiben die anderen Formen, wenn sie die gleiche Oberseite aufweisen. Nebeneinanderstehende Formen sollten deshalb alle aufgelistet werden. Diese Adjektive sind aufgelistet in:
Der Guesser für unbekannte Adjektivformen ist nur für regelmässigen Adjektiven (inkl. Konsonantenverdoppelung und flüchtigen Vokal) implementiert. Die Adjektive mit Partizipendung wurden bewusst weggelassen, da solche Formen in erster Linie eher Verbformen sind und so einerseits schon integriert sind, andererseits auch bereits in den meisten Fällen korrekt analysiert werden können.
Adverbien werden nicht (mehr) auf Adjektive zurückgeführt. Es wird nur die Steigerung normalisiert für die Lemmatisierung.
Adverbien sind folgendermassen markiert:
Wortform | Lemma | Wortart | Steigerungsstufe |
---|---|---|---|
bler | bler | +Adv | |
dapli | bler | +Adv | +Comp |
blerischem | bler | +Adv | +Sup |
pauchischem | pauc | +Adv | +Sup |
Die Formden der produktiv aus regulären Adjektiven gebildeten Adverbien auf -amain werden von adj/adj.xfst abgespeichert. Deshalb müssen zuerst Adjektive kompiliert werden. Die Adverbformen werden in adv/adv.xfst
erzeugt. Auf die Behandlung der unregelmässigen Formen und der unveränderlichen muss hier aber weiter eingegangen werden.
Die Negationspartikel sind bei den Adverbien definiert in adv/adv.xfst
.
Adverbien, welche keine oder keine unregelmässige Steigerung haben und nicht aus Adjektiven abgeleitet werden, werden in einer Liste gesammelt. Es gibt darin auf -amain-Adverbien, welche kein entsprechendes Adjektiv haben. Falls ein Adverb hier aufgeführt ist und zusätzlich noch seine Adjektiv-Basis zur Verfügung steht, ist das kein Problem, da keine Analyseduplikate entstehen.
wordlists/adv-short.txt
.
Die wenigen Adjektive, welche die feminine Form unregelmässig bilden (adj/adj-irr.lexc
), zeigen dieses Verhalten auch bei den Adverbien (z. B. largiamain, atgnamain). Diese Formen sind in lexc erfasst adv/adv-irr.lexc
. Die unregelmässig gesteigerten Adverbien sind vollständig aufgelistet.
Die Artikel und Präpositionalartikel sind folgendermassen markiert:
Lemma | Wortart | Grenze | Wortart | Bestimmth| Genus | Numerus | Endung |
------|---------|--------|---------|----------|-------|---------|--------|
in | +Art | | | +Def | +Masc | +Sg | |
| | | | | +Fem | +Pl | +Apo |
| | | | | | | |
da | +Prep | ^| | +Art | | | | |
Diese Formen sind komplett in lexc aufgelistet und in der Datei art-pron/art.lexc
zu finden. Hier ist keine Erweiterung nötig.
Als Initialen zählt die Kombination aus einem Grossbuchstaben mit einem Punkt. Sie werden mit +Initial
gekennzeichnet. Buchstaben sind dagegen Minuskel und Majuskel und sie werden mit +Let
gekennzeichnet. Als Kriterium für die Wahl der Buchstaben wurden die Zeichensätze ISO 8859-1 und ISO 8859-15 gewählt und die Buchstaben daraus kombiniert.
Die Buchstaben und Initialen sind in particles/letter.lexc
aufgelistet.
Die Interjektionen tragen das Tag +Interj
und sie sind in particles/interj.lexc
aufgelistet.
Die Interpunktionen sind folgendermassen markiert
Lemma | Wortart | Unterart |
------|---------|----------|
. | +Punc | |
| | +Beg |
| | +Mid |
| | +End |
% | +PUNCT |
Satzzeichen und weitere Interpunktionszeichen sind inparticles/interpunct.lexc
gelistet. Satzzeichen tragen das Tag +Punc und, falls es sich um öffnende oder schliessende Zeichen handelt, das Tag +Beg oder +End. Die dritte Unterteilung (+Mid) steht, wenn das Zeichen für gewöhnlich zwischen zwei Einheiten steht, die es verbindet.
Der Tag +PUNCT steht bei Zeichen, die grundsätzlich nicht für die Strukturierung eines Satzes verwendet werden, aber dennoch sehr häufig auftreten.
Es wird unterschieden zwischen Konjunktionen (+Conj) und Subjunktionen (+Subj). Apostrophierte Formen oder solche mit Hiatustilger tragen zusätzlich das Tag +Apo. Die Konjunktionen und Subjunktionen sind in particles/conj.lexc
gelistet.
Für Zahlen und Zahlwörter sind folgendermassen markiert:
Lemma | Zahlart | Mass | Genus | Numerus |
------|------------|----------|----------------|---------|
123 | +Dig +Card | | | |
| | +Percent | | |
124 | +Dig +Ord | +Degree | +Masc/+Fem | +Sg/+Pl |
1.67 | +Dig +Dec |
in | +Num +Card | | +MF/+Masc/+Fem | +Sg/+Pl |
sis | +Num +Ord | | +Masc/+Fem | +Sg/+Pl |
in | +Num +Adj | | +Masc/+Fem | +Sg/+Pl |
II | +Rom +Card | | | |
II | +Rom +Ord | | +Masc/+Fem | +Sg/+Pl |
Die Numerale und Zahlen sind in num/num.xfst
implementiert.
Die Ordnungszahlen tragen Tags für die Deklinationen, wenn sie mit dem Ordinalzahlensuffix «-avel» gebildet werden. Werden sie hingegen mit Punkt gebildet, dann können keine Deklinationsangaben gemacht werden.
Bei den Netzwerken wird unterschieden zwischen Zahlen und Zahlwörtern. Während die Zahlen allgemeingültig sind, sind Zahlwörtern schriftidiom-bedingten Wechseln unterworfen.
Präpositionen werden mit dem Tag +Prep
markiert. Bei Apostrophierung oder Hiatustilger steht zusätzlich das Tag +Apo
. Die Präpositionen sind in particles/prep.lexc gelistet.
Zur Kombination aus Artikel und Präposition steht mehr bei 6.3.
Pronomina sind folgendermassen markiert:
Lemma | Wortart | Unterart | Kasus, Ton | Person | Genus | Num. | Endung |
------|---------|----------|------------|--------|-------|------|--------|
jau | +Pron | +Pers | +Nom | +1P | +Masc | +Sg | |
sai | | +Refl | +Acc +Ton | +2P | +Fem | +Pl | +Apo |
| | | +AccDat +Aton | +3P | +MF | | |
mes | +Pron | +Poss | | | +Masc | +Sg | |
| | +Poss | | | +Fem | +pl | |
lez | +Pron | +Dem | | | | | |
tgi | | +Interrog| | | +Masc | +Sg | +Apo |
tut | | +Indef | |- | +Fem | +Pl | |
che | +Pron | +Rel | | | | | |
Bei den Demonstrativ-, Interrogativ- und Indefinitpronomina stehen Deklinationsendungen nur bei veränderlichen Lemmata. Die Possessivpronomina können zu Substantiven deriviert werden. Dabei steht das Tag ˆDB
und die restlichen Tags wie bei den Substantiven.
Die Pronomina sind in art-pron/pron.lexc
aufgelistet. Entgegen Caduff et al (2009) und aber entsprechend Lia Rumantscha (2006) gibt es ein Relativpronomen che.
Die Substantive sind folgendermassen markiert:
Lemma | Wortart | Genus | Numerus |
------|---------|-------|---------|
pled | +Noun | +Masc | +Sg |
| | +Fem | +Pl |
Die Integration der Substantive findet in noun/noun.xfst
statt. Die Substantive sind in folgende Gruppen eingeteilt: Regelmässige Substantive je nach Genus, Pluraliatantum und Singulariatantum je nach Genus, maskuline Substantive auf die Partizipendungen -à und-ì, sowie auf die Endung -è. Die mit Bindestrich zusammengesetzten Komposita werden hier mitbehandelt, die Komposita ohne Bindestrich weichen in der Deklination nicht ab. Die unregelmässigen Substantive sind separat in lexc integriert.
Die regelmässigen Substantive sind in folgenden Dateien abgelegt:
wordlists/noun-fem.txt
für die femininen Substantive.wordlists/noun-masc.txt
für die maskulinen Substantive.In diesen beiden Listen könnten noch Singulariatantum enthalten sein. Dies hat aber nur Folgen, wenn das Analysetool als Akzeptor verwendet werden soll, da in den anderen Fällen der Input eine ausreichende Beschränkung darstellt.
Als Singulariatantum wurden die Wörter von Caduff et al. [2] übernommen und ergänzt. Als Pluraliatantum dienen die Formen, die im Pledari grond als Lemmata im Plural vorkommen. Aus diesem Grund erscheint auch hier der Plural im Lemma. Die Singulariatantum und Pluraliatantum sind in folgenden Listen gesammelt:
wordlists/noun-fem-sing.txt
für die femininen Singulariatantum.wordlists/noun-masc-sing.txt
für die maskulinen Singulariatan-wordlists/noun-fem-plur.txt
für die femininen Pluraliatantum.wordlists/noun-masc-plur.txt
für die maskulinen Pluraliatantum.
Diese maskulinen Substantive ändern ihre Endung, bevor die Endung für den Plural hinzukommt (mantè – mantels, marì – marids). Sie stehen in einer Liste, da sie sich problemlos gemeinsam behandeln lassen:
wordlists/noun-part.txt
Die unregelmässigen Substantive sind in lexc geschrieben und überschreiben Formen mit derselben Oberseite. Sie liegen in der Datei:
Die Verarbeitung für unbekannte Formen enthält die regelmässigen Substantive, die Substantive auf -è und die Komposita mit diesen Formen. Von den Substantiven mit Paritzipendung wurde abgesehen, da diese schon bei den Verben integriert sind, sodass eine brauchbare Analyse möglich ist.
In wordlists/abbr.txt
sind Abkürzungen und Akronyme enthalten. Sie haben das Wortartentag +Abbr
.
In wordlists/noun-proper.txt
sind Namen aufgelistet. Für Personennamen liegt es nahe, aus bestehenden System diesen Teil zu übernehmen. Für sprachspezifische Namen werden aber spezifische Listen vonnöten sein.
Die Verben sind folgendermassen markiert:
Lemma | Wortart | Form | Person | Genus | Numerus |
------|---------|----------|--------|-------|---------|
midar | +Verb | +PresInd | +1P | | +Sg |
| | +ImpInd | +2P | | +Pl |
| | +Cond | | | |
| | +Con | | | |
| | +Impv | | | |
| | | | | |
midar | +Verb | +Inf | | | |
| | +Gerund | | | |
| | | | | |
midar | +Verb | +PastPart| | +Masc | +Sg |
| | | | +Fem | +Pl |
Zusätzlich können noch Endungen folgen, wenn das Verb von Pronomina gefolgt ist. Folgt das Pronomen ins wird entweder die Verbendung apostrophiert oder ein ‹n› suffigert, was beides mit +Apo
markiert wird.
Die Personalpronomina werden hingegen direkt an das Verb suffigiert und die Verbindungsgrenze mit ˆ|
markiert. Danach folgen die üblichen Angaben der Pronomina:
gidar+Verb+PresInd+3P+Sgˆ|+Pron+Pers+Nom+3P+Masc+Sg gida’l
Die Implementierung der Verben erfolgt in verb/verb.xfst
und es wird nach drei Verbgruppen unterschieden: Regelmässige Verben, Verben mit Vokalwechsel und unregelmässige Verben. Die Bildung der unregelmässigen Partizipformen erfolgt separat, da diese nicht dem gleichen Aufteilungsschema folgen.
Die regelmässigen Verben wurden in folgende Listen aufgeteilt:
wordlists/verb-ar.txt
für die Verben wie gidar – jau gid, die als regelmässige Verben im engsten Sinn gelten. Diese Liste enthält leider noch Lemmata, die nicht hinein gehören.wordlists/verb-air.txt
für die Verben wie temair – jau tem, auch regelmässigen im engsten Sinn.wordlists/verb-er.txt
für die Verben wie vender – jau vend, auch regelmässigen im engsten Sinn.wordlists/verb-ir.txt
für die Verben wie partir – jau part, auch regelmässigen im engsten Sinn.wordlists/verb-ar-esch.txt
für die Verben wie gratular–jaugratulesch, also Verben mit der Endung -esch vor den unbetonten Endungen.wordlists/verb-air-esch.txt
für die Verben wie apparair – jau apparesch, wobei diese Gruppe sehr klein ist und nicht überall als regelmässig gilt.wordlists/verb-er-esch.txt
für die Verben wie absolver – jau absolvesch, auch eine kleine Gruppe und nicht überall als regelmässig gesehen.wordlists/verb-ir-esch.txt
für die Verben wie finir – jau finesch, wobei dieser Gruppe viele Lemmata angehören.wordlists/verb-er2.txt
für die Verben wie currer, die trotz -erEndung wie partir konjugiert werden. Diese Verben wurden hier implementiert, da sie ohne Aufwand wie die anderen Gruppen verarbeitet werden können.Nicht als Unregelmässigkeiten zählen die Endung -el in der 1. Person Präsens Singular, die Vermeidung von Konsonantenverdoppelungen am Wortende, durch die Schreibweise bedingte Besonderheiten mit ‹c›, ‹g› und ‹gl›, sowie unregelmässige Partizipformen.
Die Endungen (inkl. suffigierte Personalpronomina) für diese Verben sind in lexc geschrieben und liegen in folgenden Dateien vor:
verb/verb-ar-end.lexc
für gidar – jau gid.verb/verb-ar-esch-end.lexc
für gradular – jau gratulesch.verb/verb-er-end.lexc
für temair – jau tem, vender – jau vend.verb/verb-er-esch-end.lexc
für apparair – jau apparesch, absolver – jau absolvesch.verb/verb-ir-end.lexc
für partir – jau part, currer – jau cur.verb/verb-ir-esch-end.lexc
für finir – jau finesch.Da der Infinitiv separat implementiert ist, können für verschiedene Verbgruppen die gleichen Endungen verwendet werden. Der richtige Anschluss der Pronomina und die Entscheidung über die Endung -el werden durch Ersetzungsregeln in verb/verb.xfst
sichergestellt.
Die Verben mit Vokalwechsel weisen in den Formen mit unbetonter Endung einen anderen Stammvokal auf, als in den Formen mit betonter Endung. Auch wenn Regelmässigkeiten existieren, wurde es als einfacher befunden, für jedes Verb beide Stämme aufzulisten. Diese Verben sind in verb/verb-vchg.lexc
implementiert. Für den Anschluss der Pronomina und die richtige Form der Endungen wird auch hier mit Ersetzungsregeln gearbeitet. Zur Regelmässigkeit (abgesehen vom Vokalwechsel) gelten die gleichen Kriterien wie bei den regelmässigen Verben.
Verben, die nicht in die vorherigen Kategorien passen, gehören zu den unregelmässigen Verben. Diese liegen in der Datei verb/verb-irr.lexc
vor. Verben, die sich bloss durch einen Präfix unterscheiden sollten gemeinsam behandelt werden.
Die Partizipformen, die vom allgemeinen Schema abweichen wurden unabhängig von der Konjugationsklasse der Verben in verb/verb-part-irr.lexc implementiert. Es muss dabei darauf geachtet werden, nach welchem System (-à, -ì oder konsonantisch) die Partizipien dekliniert werden und ob eine Konsonantenverdoppelung geschieht oder der Stamm auf ‹s› endet und kein ‹s› mehr folgen kann.
Da die unregelmässigen Partizipien die regelmässigen überschreiben, müssen parallele Formen hier integriert werden, auch wenn sie regelmässig gebildet würden.
Anhand der Endungen können auch dem System unbekannte Verbformen verarbeitet werden. Dabei können sie folgenden Konjugationgruppen angehören:
In spelling/ortho-rule.xfst
sind die Regeln zur Grossschreibung (Erstellung von fstbinaries/Capitalization.fst) und die Regeln für die verschiedenen Erscheinungen des Apostrophs und der finalen Verarbeitung der harten und weichen Konsonanten (‹c›, ‹g›, ‹l›; schliesslich in fstbinaries/OrthoRule.fst
) implementiert.
Für kurze Wörter wie Pronomina, Artikel und einige Präpositionen gibt es pro Idiom in idioms/
eine lexc-Liste, die diese Wörter enthält. Damit können diese Formen, die sich manchmal stark vom Rumantsch Grischun unterscheiden, erkannt werden. Für die sonstigen Fälle sind Ersetzungsregeln für Buchstaben und Buchstabengruppen in idioms/varieties.xfst
implementiert. Diese können die geläufigsten Lautunterschieden verarbeiten.
Die Transduktoren für die Analyse der Schriftidiome sind nach deren Namen benannt und können auch kombiniert werden. Automatisch erstellt wird die Kombination aus Rumantsch Grischun und den fünf Schriftidiomen.
Das System erwartet Eingabetexte, die nach Leerstellen tokenisiert wurden. Des weiteren sollten auch Satzzeichen als Tokens stehen, jedoch Zahlen nicht aufgeteilt werden. Mehrworttokens sind nur bei unveränderlichen Wortarten wie Namen erlaubt.
Die Tokenisierung beim Apostroph sollte nach folgender Regel gehen: Ist der Teil vor dem Apostroph verkürzt und nach dem Apostroph ein Vokal, soll getrennt werden und der Apostroph zu ersten Teil gehören (l’onn → l’ + onn). Ist hingegen der Teil nach dem Apostroph verkürzt und somit ein Konsonant nach dem Apostroph, soll es als ein Token angesehen werden und nicht getrennt werden (gida’l → gida’l). Konsonanten hingegen werden im Rätoromanischen nicht durch Apostroph ersetzt.
Ein einfacher perl-basierter Tokeniser, der diese Regeln umsetzt, :
$ perl tokenizer.pl Infile Outfile
[Beesley und Karttunen (2003)] Kenneth R. Beesley und Lauri Karttunen. Finite-State Morphology: Xerox Tools and Techniques. CSLI Publications, 2003.
[Caduff et al (2009)]: Renzo Caduff, Uorschla N. Caprez und Georges Darms. Grammatica d’instrucziun dal rumantsch grischun (versiun curregida). Seminari da rumantsch da l’Universitad da Friburg, Fribourg, 2009. URL http://www.chatta.ch/uploads/tx_icsrg/GrammaticaRG2009.pdf
[Lia Rumantscha (2018)] Lia Rumantscha. Pledari grond online. URL http://www.pledarigrond.ch (letzter Zugriff: 2018-01-24). Onlinewörterbuch für Rumantsch Grischun.
[Lia Rumantscha (2006)] Rumantsch Grischun Per Rumantschs: Grammatica I. URL http://www.pledarigrond.ch/assets/binary/grammatica.pdf
[Xerox Corporation 2013] Xerox Corporation. Open xerox: Morphological analysis. URL http://open.xerox.com/Services/fst-nlp-tools/Consume/176 (letzter Zugriff: 2013-07-24). Online-Morphologieanalyse.