Morphologieanalyse für Rumantsch Grischun

Institut für Computerlinguistik, Universität Zürich, Lizenz: Creative Commons Attribution-ShareAlike 4.0
Viele Einträge stammen (mit freundlicher Genehmigung) aus http://www.pledarigrond.ch, welche unter CC Attribution 4.0 International veröffentlicht sind.

Reto Baumgartner, Martina Bachmann, Rolf Badat, Daniel Hegglin, Susanna Tron, Melanie Widmer, Nora Lötscher, Noëmi Aepli, Martin Cantieni, Victoria Mosca

Inhalt

Abstract

Dies ist die konzeptuelle Dokumentation des finite-state-basierten Morphologiesystem für die schweizerische Landessprache Rumantsch Grischun. Teilweise sind auch die traditionellen Standardvarietäten des Rätoromanischen behandelt. Die linguistische Formalisierung orientiert sich an existierenden Systemen für die nah verwandte Sprache Italienisch.

1 Linguistische Formalisierung

Die Grammatik von Caduff et al (2009) dient als Grundlage für die Wortbildung. Zudem wurde die Grammatik Lia Rumantscha (2006) für linguistische Fragen beigezogen.
Die Wortlisten stammen grösstenteils aus dem Pledari grond online der Lia Rumantscha.
Die Wahl der Tags folgte den Empfehlungen von Beesley und Karttunen (2003, 335-366). Bei Zweifelsfällen wurde das Online-Morphologieanalysesystem von Xerox Corporation (2013) für Italienisch verwendet.

3 Installation

Das Morphologiesystem lässt sich einfach mit dem Build-Werkzeug make kompilieren. Die Voraussetzung für die Installation sind die Finite-State-Werkzeuge von Xerox (xfst) oder alternativ Mans Huldens Open-Source-Variante Foma (foma). Im folgenden bezeichnet xfst/foma das jeweils verwendete Werkzeug.

Für die traditionellen Schriftidiome existiert ein Behelf, der mit ein paar wenigen gelisteten Formen und regelmässigen Ersetzungen von Buchstaben oder Buchstabengruppen im Rumantsch Grischun die Formen der traditionellen Schriftidiome bildet. Damit können aber nicht alle Formen erkannt werden, weil sich die Schriftidiome manchmal stark vom Rumantsch Grischun unterscheiden.

Für die Installation müssen die Dateien des Archivs im gewünschten Ordner entpackt werden und dort können mit folgenden Kommandos die binären Netzwerke kompiliert und gespeichert werden:

Befehl Erklärung
make (für die Installation mit foma)
make -f Makefile-foma (für die Installation mit foma)
make -f Makefile-idioms (Erkennung der Schriftidiome, mit xfst)
make -f Makefile-idioms-foma (Erkennung der Schriftidiome, mit foma)

Mit diesen Kommandos können die Netzwerke nach Änderungen in den Wörterlisten oder der weiteren Verarbeitung aktualisiert werden.

4 Benutzung

Die bei der Installation erstellten Dateien mit .fst können in xfst/foma geladen werden und dort weiterverwendet werden mit:

xfst[0]: load stack GrischunGuessing.fst

oder sie können auf der Kommandozeile für die Analyse mittels lookup/flookup verwendet werden:

$ lookup Grischun.fst < tokenis-Infile.txt > Outfile.txt

5 Verwendete Tags

5.1 Wortartentags

+Abbr   Abkürzung
+Adj    Adjektiv  
+Adv    Adverb  
+Art    Artikel  
+Conj   Konjunktion  
+Dig    Zahlen in Ziffernschreibung  
+For    Fremdwörter (ausser wenn Namen)
+Initial    Initialenabkürzungen wie A.  
+Interj Interjektion  
+Let    Buchstabe  
+Noun   Substantiv  
+Num    Zahlwörter  
+Prep   Präposition  
+Pron   Pronomen  
+Prop   Namen  
+Prt    Partikel (Negationspartikel)  
+Punc   Satzzeichen  
+PUNCT  weitere Zeichen im Satz  
+Rom    römische Zahlen  
+Subj   Subjunktionen  
+Verb   Verb  

5.2 Genauere Einteilung der Wortarten

Pronomen:

+Pron +Dem  Demonstrativpronomen
+Pron +Indef    Indefinitpronomen
+Pron +Interrog Interrogativpronomen
+Pron +Pers Personalpronomen
+Pron +Poss Possessivpronomen
+Pron +Refl Reflexivpronomen

Zahlen:

+Dig +Card  Kardinalzahlen in Ziffern
+Dig +Dec   Dezimalzahlen
+Dig +Degree    Gradangaben
+Dig +Ord   Ordinalzahlen in Ziffern
+Dig +Percent   Prozentzahlen
+Num +Card  Kardinalzahlen
+Num +Ord   Ordinalzahlen
+Num +Adj   Multiplikativzahlen
+Rom +Card  Römische Kardinalzahlen
+Rom +Ord   Römische Ordinalzahlen

Satzzeichen:

+Punc +Beg  öffnende Satzzeichen
+Punc +Mid  mittlere Satzzeichen
+Punc +End  schliessende Satzzeichen

Partikel:

+Prt +Neg   Negationspartikel (*betg*, *na*, *n'* *nun*)

Abkürzungen:

+Noun +Abbr Abkürzungen von Substantiven

5.3 Deklination und Konjugation

Kasus:

+Nom    Nominativ
+Acc    Akkusativ
+AccDat Akkusativ oder Dativ

Numerus:

+Sg Singular
+Pl Plural

Genus:

+Fem    Feminin
+Masc   Maskulin
+MF Maskulin oder feminin

Person:

+1P Erste Person
+2P Zweite Person
+3P Dritte Person

Definitheit:

+Def    Bestimmt
+Indef  Unbestimmt

Steigerung:

+Comp   unregelmässiger Komparativ
+Sup    absoluter Superlativ

Betontheit:

+Aton   unbetont
+Ton    betont

Verbformen:

+PresInd    Präsens Indikativ
+ImpInd Imperfekt Indikativ
+Con        Konjunktiv
+Cond   Konditional
+Impv   Imperativ
+Inf        Infinitiv
+Gerund Gerundium
+PastPart   Partizip Vergangenheit

5.4 Weitere Tags

Derivationsangaben, Klitika:

ˆDB Derivationsgrenze
ˆ|  Grenze für Klitika (Pronomen, bestimmte Artikel)

Diverse:

*   Grossschreibung
+UNKNOWN    Unbekannte Form
+Apo    Apostrophierte Form oder mit Hiatustilger (z.B. *ed* statt *e* vor Vokal)
+Typo   Vertipper (Korrigierte Form kann in 4. Spalte mit @KORRIGIERT eingetragen werden.)
+Lingo  Ein linguistischer Fehler (anderes Idiom)

Die Tags +UNKNOWN und * können in collection-RG.xfst geändert werden. Für die Kompilierung mit den Schriftidiomen können die Tags am Beginn der Datei collection.xfst geändert werden.

6 Wortarten

Abkürzungen (+Abbr) werden unabhängig von der Wortart gesetzt. Z.B. resp. oder * *.

6.1 Adjektive

Adjektive sind folgendermassen markiert:

Lemma | Wortart | Steigerungsstufe | Genus | Numerus|
------|---------|------------------|-------|--------|
bun | +Adj | |+Masc |+Sg |
| | +Comp |+Fem |+Pl |
| | +Sup

Die Markierung für den Komparativ wird nur für die unregelmässige Steigerung verwendet. Gleichzeitig steht er auch, wenn eine entsprechende Adjektivform superlativisch verwendet wird. Die Markierung für den Superlativ steht für Formen mit der Endung ‹-ischem›, die nicht eine Steigerungsform im engen Sinn, sondern eine Intensivierungen ausdrückt. Für den Positiv steht keine Markierung.

Die Integration der Adjektive findet in adj/adj.xfst statt. Es wird eine Aufteilung der Adjektive in verschiedene Kategorien verwendet.

6.1.1 Regelmässige Adjektive


Wie regelmässige Adjektive (wie calm – calma) werden auch die Adjektive mit Konsonantenverdoppelung vor der femininen Endung (wie brut – brutta) und Adjektive mit flüchtigem Vokal (wie liber – libra) behandelt. Durch eine vorausgehende Behandlung können alle schliesslich wie regelmässige Adjektive behandelt werden. Die drei Adjektivuntergruppen sind in folgenden Dateien aufgelistet:

6.1.2 Adjektive mit Partizipendung


Diese Adjektive enden in oder (affectuà – affectuada oder partì – partida). Die meisten sind Partizipien, die im Pledari grond online als Lemma aufgelistet sind.

Diese Adjektive sind aufgelistet in:

6.1.3 Unveränderliche Adjektive


Für die unveränderlichen Adjektive wurden die gleichen Tags verwendet wie für die regelmässigen Adjektive. Somit ist die Analyse nie eindeutig möglich, aber die Einheitlichkeit ist bewahrt. Auf den Superlativ wurde verzichtet, da nicht klar ist, ob und wie dieser gebildet werden könnte. Die unveränderlichen Adjektive sind aufgelistet in der Datei wordlists/adj-inv.txt.

6.1.4 Unregelmässige Adjektive


Die unregelmässigen Adjektive teilen sich in zwei Gruppen auf, nämlich in diejenigen mit einer unregelmässigen Steigerung und diejenigen mit einer unregelmässigen Formenbildung. Die Formen sind komplett in lexc geschrieben und überschreiben die anderen Formen, wenn sie die gleiche Oberseite aufweisen. Nebeneinanderstehende Formen sollten deshalb alle aufgelistet werden. Diese Adjektive sind aufgelistet in:

6.1.5 Adjektiv-Guesser


Der Guesser für unbekannte Adjektivformen ist nur für regelmässigen Adjektiven (inkl. Konsonantenverdoppelung und flüchtigen Vokal) implementiert. Die Adjektive mit Partizipendung wurden bewusst weggelassen, da solche Formen in erster Linie eher Verbformen sind und so einerseits schon integriert sind, andererseits auch bereits in den meisten Fällen korrekt analysiert werden können.

6.2 Adverbien

Adverbien werden nicht (mehr) auf Adjektive zurückgeführt. Es wird nur die Steigerung normalisiert für die Lemmatisierung.
Adverbien sind folgendermassen markiert:

Wortform Lemma Wortart Steigerungsstufe
bler bler +Adv
dapli bler +Adv +Comp
blerischem bler +Adv +Sup
pauchischem pauc +Adv +Sup

Die Formden der produktiv aus regulären Adjektiven gebildeten Adverbien auf -amain werden von adj/adj.xfst abgespeichert. Deshalb müssen zuerst Adjektive kompiliert werden. Die Adverbformen werden in adv/adv.xfst erzeugt. Auf die Behandlung der unregelmässigen Formen und der unveränderlichen muss hier aber weiter eingegangen werden.
Die Negationspartikel sind bei den Adverbien definiert in adv/adv.xfst.

6.2.1 Nicht abgeleitete Adverbien


Adverbien, welche keine oder keine unregelmässige Steigerung haben und nicht aus Adjektiven abgeleitet werden, werden in einer Liste gesammelt. Es gibt darin auf -amain-Adverbien, welche kein entsprechendes Adjektiv haben. Falls ein Adverb hier aufgeführt ist und zusätzlich noch seine Adjektiv-Basis zur Verfügung steht, ist das kein Problem, da keine Analyseduplikate entstehen.

6.2.2 Unregelmässige Adverbien


Die wenigen Adjektive, welche die feminine Form unregelmässig bilden (adj/adj-irr.lexc), zeigen dieses Verhalten auch bei den Adverbien (z. B. largiamain, atgnamain). Diese Formen sind in lexc erfasst adv/adv-irr.lexc. Die unregelmässig gesteigerten Adverbien sind vollständig aufgelistet.

6.3 Artikel

Die Artikel und Präpositionalartikel sind folgendermassen markiert:

Lemma | Wortart | Grenze | Wortart | Bestimmth| Genus | Numerus | Endung |
------|---------|--------|---------|----------|-------|---------|--------|
in | +Art | | | +Def | +Masc | +Sg | |
| | | | | +Fem | +Pl | +Apo |
| | | | | | | |
da | +Prep | ^| | +Art | | | | |

Diese Formen sind komplett in lexc aufgelistet und in der Datei art-pron/art.lexc zu finden. Hier ist keine Erweiterung nötig.

6.4 Buchstaben und Initialen

Als Initialen zählt die Kombination aus einem Grossbuchstaben mit einem Punkt. Sie werden mit +Initial gekennzeichnet. Buchstaben sind dagegen Minuskel und Majuskel und sie werden mit +Let gekennzeichnet. Als Kriterium für die Wahl der Buchstaben wurden die Zeichensätze ISO 8859-1 und ISO 8859-15 gewählt und die Buchstaben daraus kombiniert.
Die Buchstaben und Initialen sind in particles/letter.lexc aufgelistet.

6.5 Interjektionen

Die Interjektionen tragen das Tag +Interj und sie sind in particles/interj.lexc aufgelistet.

6.6 Interpunktion


Die Interpunktionen sind folgendermassen markiert

Lemma | Wortart | Unterart |
------|---------|----------|
. | +Punc | |
| | +Beg |
| | +Mid |
| | +End |
% | +PUNCT |

Satzzeichen und weitere Interpunktionszeichen sind in
particles/interpunct.lexc gelistet. Satzzeichen tragen das Tag +Punc und, falls es sich um öffnende oder schliessende Zeichen handelt, das Tag +Beg oder +End. Die dritte Unterteilung (+Mid) steht, wenn das Zeichen für gewöhnlich zwischen zwei Einheiten steht, die es verbindet.
Der Tag +PUNCT steht bei Zeichen, die grundsätzlich nicht für die Strukturierung eines Satzes verwendet werden, aber dennoch sehr häufig auftreten.

6.7 Konjunktionen und Subjunktionen


Es wird unterschieden zwischen Konjunktionen (+Conj) und Subjunktionen (+Subj). Apostrophierte Formen oder solche mit Hiatustilger tragen zusätzlich das Tag +Apo. Die Konjunktionen und Subjunktionen sind in particles/conj.lexc gelistet.

6.8 Numerale und Zahlen


Für Zahlen und Zahlwörter sind folgendermassen markiert:

Lemma | Zahlart | Mass | Genus | Numerus |
------|------------|----------|----------------|---------|
123 | +Dig +Card | | | |
| | +Percent | | |
124 | +Dig +Ord | +Degree | +Masc/+Fem | +Sg/+Pl |
1.67 | +Dig +Dec |
in | +Num +Card | | +MF/+Masc/+Fem | +Sg/+Pl |
sis | +Num +Ord | | +Masc/+Fem | +Sg/+Pl |
in | +Num +Adj | | +Masc/+Fem | +Sg/+Pl |
II | +Rom +Card | | | |
II | +Rom +Ord | | +Masc/+Fem | +Sg/+Pl |

Die Numerale und Zahlen sind in num/num.xfst implementiert.
Die Ordnungszahlen tragen Tags für die Deklinationen, wenn sie mit dem Ordinalzahlensuffix «-avel» gebildet werden. Werden sie hingegen mit Punkt gebildet, dann können keine Deklinationsangaben gemacht werden.
Bei den Netzwerken wird unterschieden zwischen Zahlen und Zahlwörtern. Während die Zahlen allgemeingültig sind, sind Zahlwörtern schriftidiom-bedingten Wechseln unterworfen.

6.9 Präpositionen


Präpositionen werden mit dem Tag +Prep markiert. Bei Apostrophierung oder Hiatustilger steht zusätzlich das Tag +Apo . Die Präpositionen sind in particles/prep.lexc gelistet.
Zur Kombination aus Artikel und Präposition steht mehr bei 6.3.

6.10 Pronomina


Pronomina sind folgendermassen markiert:

Lemma | Wortart | Unterart | Kasus, Ton | Person | Genus | Num. | Endung |
------|---------|----------|------------|--------|-------|------|--------|
jau | +Pron | +Pers | +Nom | +1P | +Masc | +Sg | |
sai | | +Refl | +Acc +Ton | +2P | +Fem | +Pl | +Apo |
| | | +AccDat +Aton | +3P | +MF | | |
mes | +Pron | +Poss | | | +Masc | +Sg | |
| | +Poss | | | +Fem | +pl | |
lez | +Pron | +Dem | | | | | |
tgi | | +Interrog| | | +Masc | +Sg | +Apo |
tut | | +Indef | |- | +Fem | +Pl | |
che | +Pron | +Rel | | | | | |

Bei den Demonstrativ-, Interrogativ- und Indefinitpronomina stehen Deklinationsendungen nur bei veränderlichen Lemmata. Die Possessivpronomina können zu Substantiven deriviert werden. Dabei steht das Tag ˆDB und die restlichen Tags wie bei den Substantiven.
Die Pronomina sind in art-pron/pron.lexc aufgelistet. Entgegen Caduff et al (2009) und aber entsprechend Lia Rumantscha (2006) gibt es ein Relativpronomen che.

6.11 Substantive


Die Substantive sind folgendermassen markiert:

Lemma | Wortart | Genus | Numerus |
------|---------|-------|---------|
pled | +Noun | +Masc | +Sg |
| | +Fem | +Pl |

Die Integration der Substantive findet in noun/noun.xfst statt. Die Substantive sind in folgende Gruppen eingeteilt: Regelmässige Substantive je nach Genus, Pluraliatantum und Singulariatantum je nach Genus, maskuline Substantive auf die Partizipendungen und-ì, sowie auf die Endung . Die mit Bindestrich zusammengesetzten Komposita werden hier mitbehandelt, die Komposita ohne Bindestrich weichen in der Deklination nicht ab. Die unregelmässigen Substantive sind separat in lexc integriert.

6.11.1 Regelmässige Substantive


Die regelmässigen Substantive sind in folgenden Dateien abgelegt:

In diesen beiden Listen könnten noch Singulariatantum enthalten sein. Dies hat aber nur Folgen, wenn das Analysetool als Akzeptor verwendet werden soll, da in den anderen Fällen der Input eine ausreichende Beschränkung darstellt.

6.11.2 Singulariatantum und Pluraliatantum


Als Singulariatantum wurden die Wörter von Caduff et al. [2] übernommen und ergänzt. Als Pluraliatantum dienen die Formen, die im Pledari grond als Lemmata im Plural vorkommen. Aus diesem Grund erscheint auch hier der Plural im Lemma. Die Singulariatantum und Pluraliatantum sind in folgenden Listen gesammelt:

6.11.3 Substantive auf -à, -ì und -è


Diese maskulinen Substantive ändern ihre Endung, bevor die Endung für den Plural hinzukommt (mantè – mantels, marì – marids). Sie stehen in einer Liste, da sie sich problemlos gemeinsam behandeln lassen:

6.11.4 Unregelmässige Substantive


Die unregelmässigen Substantive sind in lexc geschrieben und überschreiben Formen mit derselben Oberseite. Sie liegen in der Datei:

6.11.5 Hypothetische Formen


Die Verarbeitung für unbekannte Formen enthält die regelmässigen Substantive, die Substantive auf und die Komposita mit diesen Formen. Von den Substantiven mit Paritzipendung wurde abgesehen, da diese schon bei den Verben integriert sind, sodass eine brauchbare Analyse möglich ist.

6.11.6 Abkürzungen und Namen


In wordlists/abbr.txt sind Abkürzungen und Akronyme enthalten. Sie haben das Wortartentag +Abbr.
In wordlists/noun-proper.txt sind Namen aufgelistet. Für Personennamen liegt es nahe, aus bestehenden System diesen Teil zu übernehmen. Für sprachspezifische Namen werden aber spezifische Listen vonnöten sein.

6.12 Verben


Die Verben sind folgendermassen markiert:

Lemma | Wortart | Form | Person | Genus | Numerus |
------|---------|----------|--------|-------|---------|
midar | +Verb | +PresInd | +1P | | +Sg |
| | +ImpInd | +2P | | +Pl |
| | +Cond | | | |
| | +Con | | | |
| | +Impv | | | |
| | | | | |
midar | +Verb | +Inf | | | |
| | +Gerund | | | |
| | | | | |
midar | +Verb | +PastPart| | +Masc | +Sg |
| | | | +Fem | +Pl |

Zusätzlich können noch Endungen folgen, wenn das Verb von Pronomina gefolgt ist. Folgt das Pronomen ins wird entweder die Verbendung apostrophiert oder ein ‹n› suffigert, was beides mit +Apo markiert wird.
Die Personalpronomina werden hingegen direkt an das Verb suffigiert und die Verbindungsgrenze mit ˆ| markiert. Danach folgen die üblichen Angaben der Pronomina:
gidar+Verb+PresInd+3P+Sgˆ|+Pron+Pers+Nom+3P+Masc+Sg gida’l
Die Implementierung der Verben erfolgt in verb/verb.xfst und es wird nach drei Verbgruppen unterschieden: Regelmässige Verben, Verben mit Vokalwechsel und unregelmässige Verben. Die Bildung der unregelmässigen Partizipformen erfolgt separat, da diese nicht dem gleichen Aufteilungsschema folgen.

6.12.1 Regelmässige Verben


Die regelmässigen Verben wurden in folgende Listen aufgeteilt:

Nicht als Unregelmässigkeiten zählen die Endung -el in der 1. Person Präsens Singular, die Vermeidung von Konsonantenverdoppelungen am Wortende, durch die Schreibweise bedingte Besonderheiten mit ‹c›, ‹g› und ‹gl›, sowie unregelmässige Partizipformen.
Die Endungen (inkl. suffigierte Personalpronomina) für diese Verben sind in lexc geschrieben und liegen in folgenden Dateien vor:

Da der Infinitiv separat implementiert ist, können für verschiedene Verbgruppen die gleichen Endungen verwendet werden. Der richtige Anschluss der Pronomina und die Entscheidung über die Endung -el werden durch Ersetzungsregeln in verb/verb.xfst sichergestellt.

6.12.2 Verben mit Vokalwechsel


Die Verben mit Vokalwechsel weisen in den Formen mit unbetonter Endung einen anderen Stammvokal auf, als in den Formen mit betonter Endung. Auch wenn Regelmässigkeiten existieren, wurde es als einfacher befunden, für jedes Verb beide Stämme aufzulisten. Diese Verben sind in verb/verb-vchg.lexc implementiert. Für den Anschluss der Pronomina und die richtige Form der Endungen wird auch hier mit Ersetzungsregeln gearbeitet. Zur Regelmässigkeit (abgesehen vom Vokalwechsel) gelten die gleichen Kriterien wie bei den regelmässigen Verben.

6.12.3 Unregelmässige Verben


Verben, die nicht in die vorherigen Kategorien passen, gehören zu den unregelmässigen Verben. Diese liegen in der Datei verb/verb-irr.lexc vor. Verben, die sich bloss durch einen Präfix unterscheiden sollten gemeinsam behandelt werden.

6.12.4 Unregelmässige Verbpartizipien


Die Partizipformen, die vom allgemeinen Schema abweichen wurden unabhängig von der Konjugationsklasse der Verben in verb/verb-part-irr.lexc implementiert. Es muss dabei darauf geachtet werden, nach welchem System (-à, -ì oder konsonantisch) die Partizipien dekliniert werden und ob eine Konsonantenverdoppelung geschieht oder der Stamm auf ‹s› endet und kein ‹s› mehr folgen kann.
Da die unregelmässigen Partizipien die regelmässigen überschreiben, müssen parallele Formen hier integriert werden, auch wenn sie regelmässig gebildet würden.

6.12.5 Guesser für Verben


Anhand der Endungen können auch dem System unbekannte Verbformen verarbeitet werden. Dabei können sie folgenden Konjugationgruppen angehören:

7 Schreibregeln


In spelling/ortho-rule.xfst sind die Regeln zur Grossschreibung (Erstellung von fstbinaries/Capitalization.fst) und die Regeln für die verschiedenen Erscheinungen des Apostrophs und der finalen Verarbeitung der harten und weichen Konsonanten (‹c›, ‹g›, ‹l›; schliesslich in fstbinaries/OrthoRule.fst) implementiert.

8 Traditionelle Schriftidiome


Für kurze Wörter wie Pronomina, Artikel und einige Präpositionen gibt es pro Idiom in idioms/ eine lexc-Liste, die diese Wörter enthält. Damit können diese Formen, die sich manchmal stark vom Rumantsch Grischun unterscheiden, erkannt werden. Für die sonstigen Fälle sind Ersetzungsregeln für Buchstaben und Buchstabengruppen in idioms/varieties.xfst implementiert. Diese können die geläufigsten Lautunterschieden verarbeiten.
Die Transduktoren für die Analyse der Schriftidiome sind nach deren Namen benannt und können auch kombiniert werden. Automatisch erstellt wird die Kombination aus Rumantsch Grischun und den fünf Schriftidiomen.

9 Tokenisierung


Das System erwartet Eingabetexte, die nach Leerstellen tokenisiert wurden. Des weiteren sollten auch Satzzeichen als Tokens stehen, jedoch Zahlen nicht aufgeteilt werden. Mehrworttokens sind nur bei unveränderlichen Wortarten wie Namen erlaubt.
Die Tokenisierung beim Apostroph sollte nach folgender Regel gehen: Ist der Teil vor dem Apostroph verkürzt und nach dem Apostroph ein Vokal, soll getrennt werden und der Apostroph zu ersten Teil gehören (l’onnl’ + onn). Ist hingegen der Teil nach dem Apostroph verkürzt und somit ein Konsonant nach dem Apostroph, soll es als ein Token angesehen werden und nicht getrennt werden (gida’lgida’l). Konsonanten hingegen werden im Rätoromanischen nicht durch Apostroph ersetzt.
Ein einfacher perl-basierter Tokeniser, der diese Regeln umsetzt, :

$ perl tokenizer.pl Infile Outfile

Literatur

[Beesley und Karttunen (2003)] Kenneth R. Beesley und Lauri Karttunen. Finite-State Morphology: Xerox Tools and Techniques. CSLI Publications, 2003.

[Caduff et al (2009)]: Renzo Caduff, Uorschla N. Caprez und Georges Darms. Grammatica d’instrucziun dal rumantsch grischun (versiun curregida). Seminari da rumantsch da l’Universitad da Friburg, Fribourg, 2009. URL http://www.chatta.ch/uploads/tx_icsrg/GrammaticaRG2009.pdf

[Lia Rumantscha (2018)] Lia Rumantscha. Pledari grond online. URL http://www.pledarigrond.ch (letzter Zugriff: 2018-01-24). Onlinewörterbuch für Rumantsch Grischun.

[Lia Rumantscha (2006)] Rumantsch Grischun Per Rumantschs: Grammatica I. URL http://www.pledarigrond.ch/assets/binary/grammatica.pdf

[Xerox Corporation 2013] Xerox Corporation. Open xerox: Morphological analysis. URL http://open.xerox.com/Services/fst-nlp-tools/Consume/176 (letzter Zugriff: 2013-07-24). Online-Morphologieanalyse.

Changelog