Corrector ortográfico
(read in English)
El problema principal para la implementación de un corrector ortográfico para el Quechua es la falta de una ortografía estándar aceptada y utilizada como norma general. Sin embargo, un corrector ortográfico depende de un 'gold-standard' que determine lo que es correcto.
Uno de los estándares más populares de los que se han propuesto es la ortografía unificada para todo el Quechua sureño del lingüista R. Cerrón-Palomino, descrito en este libro:
-
Cerrón-Palomino, R. (1994). Quechua sureño, diccionario unificado quechua-castellano, castellano-quechua. Lima: Biblioteca Nacional del Perú.
→ una versión electrónica de este diccionario se puede descargar del sitio web del Instituto de Lenguas y Literaturas Andinas-Amazonicas.
Esta es la ortografía que el corrector ortográfico emplea. Algunas características:
- es trivocalica: se usan a, i y u para las morfemas quechuas:
- qollqe se corrige a qullqi
- teqse se corrige a tiqsi
- para las raíces españolas, usamos la ortografía oficial del español:
- nasyun se corrige a nación
- dirichu se corrige a derecho
- la semivocal siempre se escribe como w, nunca como u:
- mauk'a se corrige a mawk'a
- la secuencia l(l)q siempre se escribe como llq:
- qulqi se corrige a qullqi
- la secuencia n/mp siempre se escribe como mp:
- ph siempre se escribe como ph, también al final de la sílaba:
- rafra se corrige a raphra
- lliflli se corrige a lliphlli
- q siempre se escribe como q, también al final de la sílaba:
- hoj se corrige a huq
- wasitaj se corrige a wasitaq
|
- k siempre se escribe como k, también al final de la sílaba:
- ajllay se corrige a akllay
- pijchu se corrige a pikchu
- todas las marcas de 1a persona plural inclusiva y de segunda persona terminan en k:
- pukllanchis o pukllanchiq se corrige a pukllanchik
- wasiykichis o wasiykichiq se corrige a wasiykichik
- el sufijo progresivo es -chka:
- purishanku o purisyanku se corrige a purichkanku
- la forma del genitivo después de una vocal es -p:
- wasiq punkun se corrige a wasip punkun
- la formas 'reducidas' -yu/-ya/-y del sufijo -yku/-yka se cambian a la forma 'larga':
- puriyamun se corrige a puriykamun
- rikhuywanchik se corrige a rikhuykuwanchik
- waqayuspa se corrige a waqaykuspa
- la formas 'reducidas' -ru/-ra del sufijo -rqu/-rqa se cambian a la forma 'larga':
- puriramun se corrige a purirqamun
- rupharunman se corrige a rupharqunman
|
Este corrector ortográfico emplea la distancia 'Levenshtein', véase
distancia Levenshtein en Wikipedia. Esta herramienta se ha desarollado con foma, un sistema de código abierto para implementar transductores de estados finitos.
Para sugerencias, correciones u otros comentarios, escriba a ariosATifi.uzh.ch.
El código fuente se puede descargar del repositorio de Squoia en GitHub. Plugins para LibreOffice/OpenOffice se pueden descargar aquí.
Hemos creado un sistema que convierte textos de Quechua (sureño) a esta ortografía, se puede probar aqui (descripción sólo en inglés) (ojo: esta herramienta sólo convierte la ortografía, no hace ninguna corrección de errores ortográficos o gramaticales!).
Una descripción más detallada (pero de una versión antigua) se encuentra en:
Rios, A. (2011). Spell checking an agglutinative language: Quechua. In: 5th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 25 November 2011 - 27 November 2011, 51-55. PDF
Gracias a Richard Castro Mamani de la Universidad Nacional de San Antonio Abad del Cusco, existe una interfaz gráfica: editor de texto con el corrector ortográfico (versión antigua!).
Cambios desde la última versión:
- se ha incluido el lexicón español de FreeLing:
→ palabras con raíces españolas se pueden corregir ahora.
- se ha agregado un número de nuevas reglas de correciones:
→ por ejemplo, si 2.Sg.Subj aparece en el texto como -nqui, eso se va a corregir con la nueva versión a -nki
Abajo se puede probar el corrector ortográfico.
El texto insertado debe ser en utf8 para que los carácteres no-ASCII sean visualizados correctamente.
Si no tiene un texto para probar, intenta con este:
Llaqtaymanta hanpurani mana mamay taytay kaqtin; totalmente q'ara, wakcha, madrinaypa makinpi karani. Paymi chukchayta rutuwaran, hinaspa huk p'unchay hatunchaña kashaqtiy niwaq:
-Ñataq hallpayoqña kanki, tullu takyasqa, chayqa llank'aqmi rinayki.
fuente:
Ricardo Valderrama Fernandez and Carmen Escalante Gutierrez. 1977. Gregorio Condori Mamani - Autobiografía. Biblioteca de la Tradición Oral Andina. Centro de Estudios Rurales Andinos Bartolomé de las Casas, Cuzco.
|
palabras con sugerencias:
|