Aprendizaje profundo para transcripción de textos históricos manuscritos en español
Acceso a Texto completo
Abstract
El reconocimiento de textos historicos es considerado un problema desafiante debido a los muchos factores que ´
alteran el estado de los manuscritos y la complejidad de los diferentes estilos de escritura involucrados en este tipo
de documentos; en los anos recientes se han creado muchos modelos de Reconocimiento de textos manuscritos ˜
enfocados en diversos idiomas como el ingles, chino, ´ arabe y japon ´ es entre otros, sin embargo no se han ´
encontrado muchas iniciativas de reconocimiento de texto orientadas al idioma espanol debido fundamentalmente ˜
a un escasez de datasets publicos disponibles para ayudar a solucionar la problem ´ atica en dicho idioma. ´
En esta publicacion se presenta la aplicaci ´ on de t ´ ecnicas de Deep Learning basadas en una arquitectura de ´
red neuronal encoder-decoder y convoluciones compuerta Gated-CNN las cuales en los ultimos ha demostrado ´
resultados sobresalientes para resolver dicha problematica, as ´ ´ı mismo se propone la aplicacion de mecanismos de ´
Transferencia de Aprendizaje para el reconocimiento de textos historicos en espa ´ nol. Los experimentos demuestran ˜
que la aplicacion de estos m ´ etodos puede brindar resultados sobresalientes, adem ´ as la aplicaci ´ on de otras t ´ ecnicas ´
tales como Aumentacion de Datos y Modelos de Lenguaje conllevan a mejoras significativas en los resultados finales. ´
Se propone ademas el uso de un nuevo dataset de textos hist ´ oricos en espa ´ nol conformado por 1000 elementos ˜
tomados de textos historicos peruanos referentes al siglo XVIII.