ver página en inglés

Morfología quechua

Ilustración simplificada del transductor
de estados finitos para quechua

(en formato PDF)
descargar analizador morfológico (documentación sólo en inglés)

Sistemas completos de estados finitos (página de autómatas finitos en Wikipedia) se han desarrollado para varios idiomas, pero aún así, las lenguas indígenas de las Américas han recibido menos atención de parte de la lingüística computacional que las lenguas europeas estándar. Para mi tesis de licenciada, implementé la morfología completa para una variedad de la lengua andina quechua. Aparte de un analizador y un generador de morfología Quechua, también desarollé un corrector de ortografía.
Gracias a Richard Castro Mamani de la Universidad Nacional de San Antonio Abad del Cusco, está disponible ahora un editor de texto con el corrector ortográfico para el Quechua Cuzqueño (ojo: eso es una versión antigua).
NUEVO: Hemos creado un sistema que convierte textos de Quechua (sureño) a la ortografía unificada del Quechua Sureño, se puede probar aqui (descripción sólo en inglés).

El quechua es un grupo de lenguas genéticamente relacionadas que se hablan en los Andes, mayormente en el Perú, Bolivia, Ecuador, en la parte sureña de Colombia y también en el noroeste de Argentina. El número de hablantes varía entre 8 y 10 millones, según fuentes distintas.
El quechua es lengua oficial en el Perú y Bolivia, y especialmente en el Perú el estado ha aumentado esfuerzos para suministrar informaciones oficiales a sus ciudadanos no solamente en español, sino también en quechua y (en menor grado) en otras lenguas indígenas como el aymara y asháninka.

Aunque es muy común referirse al quechua como 'lengua' y a sus variedades locales como 'dialectos', en realidad el quechua es una familia lingüística, comparable en profundidad a las lenguas latinas o las lenguas eslavas (Adelaar & Muysken 2004). Hablantes de 'dialectos' distantes no siempre llegan a una comprensión mutua.

Las lenguas quechuas se dividen en dos grupos principales, Quechua I y II, según la terminología del lingüista peruano Torero (1964).
Quechua I es el grupo de dialectos más arcaicos, que se hablan en el Perú central. Este grupo comprende un complejo altamente fragmentado de varios dialectos, que se caracterizan por una inteligibilidad mutua muy limitada entre las diferentes variedades locales. Sin embargo comparten también un buen número de características distintivas (Adelaar & Muysken 2004). Esta región centro-peruana constituye probablemente el área de origen de las lenguas quechuas modernas (Cerrón-Palomino 2003).

El Quechua II se divide en tres subgrupos:

  • QIIA, hablado en el norte del Perú
  • QIIB, hablado en Ecuador y en el sur de Colombia
  • QIIC, hablado en el sur del Perú, en Bolivia, y en el noroeste de Argentina

Este proyecto tiene un enfoque especial en los dialectos del subgrupo QIIC, y dentro de este sobre todo en las variedades de Cuzco y Ayacucho.
Abajo se puede experimentar con el analizador, pero note que fue concebido para analizar palabras del QIIC: No es capaz de analizar palabras de otras variedades correctamente.
Los resultados aparecen en ortografía trivocálica, pero en la entrada se aceptan también los vocales e y o. Oclusivas aspiradas deben escribirse con h: ph, th, kh, qh y chh . Oclusivas glotalizadas se deben escribir con apóstrofo: p', t', k', q' y ch' .

Este transductor de estados finitos fue implementado con Xerox Finite-State Tools, su tamaño es aproximadamente 7Mb.

Por si acaso no habla quechua, puede analizar una palabra de la declaración de los derechos humanos (véase abajo). Cuidado que la entrada no contenga espacios en blanco.
Para sugerencias o correcciones, por favor escriba a ariosATifi.uzh.ch

Bibliografía:


palabra quechua para analizar:

subir un archivo para analizar:

Nótese que el archivo debe ser texto plano que no contiene markup (no funciona con documentos de Word .doc, .docx etc.). La codificación debe ser utf8, de no ser así, palabras que contienen carácteres que no son ASCII (p.e. ñ,á..) no serán analizadas correctamente.

análisis: