Ranking of the top 5 OCR problems

Hoy en día nos enfrentamos a muchas nuevas tecnologías que están cambiando la forma de abordar las tareas. La idea creciente de la Inteligencia Artificial está dando forma a la nueva generación de interpretación de la información. Por otro lado, el uso del OCR lleva muchos años vigente y se ha ido adaptando a los constantes retos a los que se enfrenta.

El Sistema de Reconocimiento Óptico de Caracteres (OCR) es una tecnología capaz de extraer letras o símbolos de un formato de imagen que previamente han indicado las coordenadas en las que deben buscarse. Por ejemplo, se utiliza habitualmente para escanear matrículas de vehículos o documentos escritos a máquina.

A medida que se producen cambios en las necesidades de la sociedad, la tecnología de OCR también tiene que mantenerse al día, por lo que puede haber algunas pequeñas lagunas. Dicho esto, ¿cuáles son los problemas más comunes que vemos con el reconocimiento óptico de caracteres?

1) Calidad

La calidad de los documentos o de las imágenes de entrada puede variar fácilmente. Se recomienda que la resolución de cualquiera de ellos supere los 300 puntos por pulgada (ppp), lo que ayuda drásticamente a los resultados del escaneo.

Incluso si hay pequeñas imperfecciones, como la configuración del brillo o la rectitud, no habrá más remedio que hacer que el usuario lo corrija manualmente.

2) Error de inexactitud

Al igual que ocurre con la calidad de los documentos o las imágenes de entrada, puede haber imprecisiones. Una de las principales inexactitudes es la lectura errónea de los caracteres, incluso de letra a letra o, en muchos casos, de letra a número. Por ejemplo, la letra «l» o «I» puede confundirse fácilmente con el número «1».

3) Precio

Los sistemas OCR son caros. Se plantea el reto de comprar el equipo y, a la larga, mantenerlo en todo su potencial. Poseer un sistema propio varía desde miles hasta incluso cientos de miles de dólares.

4) Falta de información

En muchas ocasiones, el formato difiere entre las distintas imágenes o documentos de entrada. Esto puede dar lugar a contratiempos de puntuación, especialmente con los caracteres especiales.

Los contratiempos de puntuación que no pueden ser leídos por el software de OCR pueden aparecer desplazados en tamaño o ubicación. Es muy difícil para el programa detectar estos cambios.

5) Idiomas

Muchos idiomas utilizan el alfabeto latino, lo que los hace mucho más legibles para el sistema OCR. Sin embargo, muchos dialectos utilizan una gran variedad de signos de acentuación o puntuación.

Además, los idiomas que se escriben de derecha a izquierda son mucho más exigentes para la tecnología. Entre ellos se encuentran el japonés, el chino, el coreano, el árabe y el hebreo, todos ellos con letras y símbolos muy exigentes.

Aunque el sistema de reconocimiento óptico de caracteres sigue siendo una tecnología fantástica, tiene sus limitaciones para los usuarios. El uso de la Inteligencia Artificial y el SaaS podría mejorar una tecnología más antigua como el OCR, y podría dar forma al futuro para mejorar las necesidades de la sociedad.

Contact

Para más información, podéis contactar con Dost a través de su sitio webLinkedInTwitterInstagram y Facebook

Para contactar directamente con el equipo de Dost, podéis enviar un email a Marta Bigorra, SDR en Dost, a la siguiente dirección: mbigorra@mydost.ai

If you have any question, please contact us