Curso

TÉCNICAS DE PROCESAMIENTO AUTOMÁTICO DE IMÁGENES DE TEXTOS MANUSCRITOS

  • Desde: 23/5/25
  • Hasta: 20/6/25
  • Campus de Valencia
  • Idioma: Castellano
  • Online

Preinscripción desde el 25/2/25

Promovido por:
Centro de Investigación Pattern Recognition and Human Language Technology

Responsable de la actividad:
Joan Andreu Sánchez Peiró



Modalidad

Presencial Online Emisión en directo

0 horas


0 horas


10 horas*

Horario

Tarde
viernes 23 de mayo 15:00-17:00
viernes 30 de mayo 15:00-17:00
viernes 6 de junio 15:00-17:00
viernes 13 de junio 15:00-17:00
viernes 20 de junio 15:00-17:00

(*) En esta actividad, se realizarán clases a distancia con emisión en directo

Lugar de impartición
Presencial on-line (Teams)
Certificación

Asistencia

Modalidad

ONLINE

Curso

2024-2025

ECTS

0

Campus

Valencia

0 h

Presenciales

10 h

Online

Precio Colectivo
50 € Público en general 
50,00 € - Público en general

Objetivos

Los archivos históricos contienen cientos de miles de colecciones de textos manuscritos antiguos. El propósito de este curso es introducir la problemática que conlleva el Reconocimiento de Texto Manuscrito (RTM) y dar a conocer el estado actual de las técnicas de RTM basadas en métodos de aprendizaje profundo. En la actualidad es común pensar que existen aplicaciones avanzadas capaces de procesar imágenes de documentos manuscritos para su uso inmediato. Este no es el caso actualmente para los documentos manuscritos antiguos por diferentes razones: i) cada colección tiene una maquetación propia, que usualmente no es uniforme a lo largo de la colección; ii) los documentos antiguos suelen estar degradados, con líneas inclinadas, con notas al maren, con firmas y sellos, traspaso de tinta, etc. iii) cada colección contiene una terminología propia que hace difícil o imposible el uso de tesauros; iv) los texto antiguos contienen numerosos fenómenos lingüísticos que además suelen ser exclusivos de cada colección: abreviaturas utilizadas sin uniformidad, palabras cortadas, infinidad de nombres propios, mezclas de idiomas en el mismo documento, arbitrarierad en los signos de puntuación, palabras en desuso, arbitrariedad en la separación en palabras, etc.; v) cada colección suele estar escrita en una época o a lo largo de diferentes años o siglos, por lo que el número de escritores puede ser extremandamente elevado, con continuos cambios en el tipo de escritura.

Todos estos problemas hacen que el procesamiento de cada nueva colección requiera desarrollar un sistema RTM ad-hoc para dicha colección, dado que es imposible entrenar un modelo "genérico" capaz de dar cuenta de toda la variabilidad expuesta anteriormente. Dicho sistema debe ser entrenado con datos preparados adecuadamente para cada colección. Con colecciones con un tipo de escritura medianamente legible los resultados de error por palabra puede estar entre el 10% y el 20%. Dicho error por palabra puede llegar al 50% para escrituras muy complicadas de leer para los estándares actuales. Con tal cantiad de error por palabra, la búsqueda por términos en una colección con miles o millones de imágenes puede decepcionante para los usuarios. Las técnicas de Indexación Probabilística son una paso más allá del simple RTM, ya que permiten mejorar sustancialmente la búsqueda por términos textuales bajo el paradigma de precisión y cobertura.

La combinación de la Indexación Probabilísitca junto con motores de búsqueda avanzados es actualmente la tecnología más avanzada para procesar grandes colecciones de imágenes de textos manuscritos y poder localizar información útil en tiempo real. Esta tecnologías está actualmente siendo adoptada por archivos históricos para facilitar el acceso los fondos documentales que custodian.

El presente curso pretende introducir todas estas técnicas, ilustrado con multiples ejemplos y casos de uso que actualmente se encuentran en explotación.

Acción formativa dirigida a

Este curso va dirigido fundamentalmente a personas que desarrollen su trabajo en humanidades digitales con fondos documentales textuales, investigadores de procesamiento de lenguaje natural, personal de archivos y bibliotecas, historiadores, personas interesadas en genealogía o paleógrafos,


Profesores

  • Carlos Alonso Villalobos Profesional del sector
  • Alejandro Hector Toselli Técnico Superior Grado Doctor
  • Joan Andreu Sánchez Peiró Catedrático/a de Universidad
  • Enrique Vidal Ruiz Profesional del sector

Temas a desarrollar

1. Reconocimiento de Texto Manuscrito (RTM)

2. Preparación de datos para un sistema RTM

3. Indexación Probabilística (PrIx)

4. Búsqueda en grandes colecciones e integración de PrIx

5. Casos de uso