Professional Documents
Culture Documents
Tesseract
Tesseract OCR
OBJETIVOS
Modificar el cdigo de Tesseract para la implementacin de un sistema de
captura.
Es considerado uno de los pasos ms complejos del proceso de OCR. Una vez
obtenidos los caracteres individuales se obtiene un conjunto de
caractersticas, tambin llamado vector de caractersticas, las cuales se utilizan
para una posterior clasificacin de los elementos.Las caractersticas de un
elemento se obtienen a partir de su distribucin de puntos o pixeles en la
imagen.
TESSERACT OCR : Arquitectura
CLASIFICACIN
Por ltimo se toman todos los elementos clasificados y se marcan con la clase
a la que pertenecen, de esta forma se asocia un carcter especfico a cada
segmento.
INSTRUMENTOS DE ANLISIS :
DIAGRAMA DE CLASES
INSTRUMENTOS DE ANLISIS :
Diagrama de clases
INSTRUMENTOS DE ANLISIS :
Diagrama de clases
INSTRUMENTOS DE ANLISIS :
Diagrama de clases
INSTRUMENTOS DE ANLISIS :
Diagrama de clases
INSTRUMENTOS DE ANLISIS :
Diagrama de clases
INSTRUMENTOS DE ANLISIS :
Diagrama de clases
INSTRUMENTOS DE ANLISIS :
Diagrama de clases
INSTRUMENTOS DE ANLISIS :
Diagrama de clases
INSTRUMENTOS DE ANLISIS :
DIAGRAMA DE SECUENCIA
Tesseract.doOcr():
Tesseract.setImage():
Tesseract.createDocument():
INSTRUMENTOS DE ANLISIS :
DIAGRAMA DE LGICA DE
NEGOCIOS
Diagrama de lgica de negocios
En lo que se refiere a la vista lgica, la aplicacin, como puede verse en la vista
conceptual, presenta la funcionalidad de los algoritmos para el tratamiento de
imgenes digitales. Se tiene por un lado la carga de entrada, que ser una
imagen que cargaremos directamente al sistema.
2. Suavizado
3. Binarizado
Algoritmo segmentacion de piel
Algorimo de suavizado
Se utilizo el algoritmo de media ponderada para eliminacion de ruido
logrando asi una mejor segmentacion de la imagen, los valores ponderados
para una mascara de 3 x 3 son :arr[1][1]=1/16, arr[1][2]=1/8, arr[1][3]=1/16,
arr[2][1]=1/8,arr[2][2]=1/4,arr[2][3]=1/8,arr[3][1]=1/16,arr[3][2]=1/8,arr[3]
[3]=1/16
Binarizado
Se Utillizo un algoritmo con escala de grises con una tolerancia de 10
Entrenamiento
Se utilizo la herramienta JTessBox editor para la manipulacion de los objetos
entrenados .
Errores de entrenamiento
Conclusiones
La principal fuente de algoritmos de procesamiento de imagenes se
encuentra en la libreria dll libTesseract.dll .