Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres

Salas Damián, Roberto Carlos

Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres

Fecha

2011-12-02

Autores

Salas Damián, Roberto Carlos

Editor

Pontificia Universidad Católica del Perú

URI

http://hdl.handle.net/20.500.12404/1089

Resumen

Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto. El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima. El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras. Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo.

Palabras clave

Digitalización, Lingüística computacional, Procesamiento de imágenes digitales, Sistemas de reconocimiento de patrones

Colecciones

Ingeniería Electrónica

Licencia Creative Commons

Excepto se indique lo contrario, la licencia de este artículo se describe como info:eu-repo/semantics/openAccess

Ver todos los metadatos en formato Dublin Core

Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

DOI

URI

Resumen

Descripción

Palabras clave

Citación

Colecciones

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced

Licencia Creative Commons