Los archivos históricos contienen cientos de miles de colecciones de textos manuscritos antiguos. El propósito de este curso es introducir la problemática que conlleva el Reconocimiento de Texto Manuscrito (RTM) y dar a conocer el estado actual de las técnicas de RTM basadas en métodos de aprendizaje profundo. En la actualidad es común pensar que existen aplicaciones avanzadas capaces de procesar imágenes de documentos manuscritos para su uso inmediato. Este no es el caso actualmente para los documentos manuscritos antiguos por diferentes razones: i) cada colección tiene una maquetación propia, que usualmente no es uniforme a lo largo de la colección; ii) los documentos antiguos suelen estar degradados, con líneas inclinadas, con notas al maren, con firmas y sellos, traspaso de tinta, etc. iii) cada colección contiene una terminología propia que hace difícil o imposible el uso de tesauros; iv) los texto antiguos contienen numerosos fenómenos lingüísticos que además suelen ser exclusivos de cada colección: abreviaturas utilizadas sin uniformidad, palabras cortadas, infinidad de nombres propios, mezclas de idiomas en el mismo documento, arbitrarierad en los signos de puntuación, palabras en desuso, arbitrariedad en la separación en palabras, etc.; v) cada colección suele estar escrita en una época o a lo largo de diferentes años o siglos, por lo que el número de escritores puede ser extremandamente elevado, con continuos cambios en el tipo de escritura.
Todos estos problemas hacen que el procesamiento de cada nueva colección requiera desarrollar un sistema RTM ad-hoc para dicha colección, dado que es imposible entrenar un modelo "genérico" capaz de dar cuenta de toda la variabilidad expuesta anteriormente. Dicho sistema debe ser entrenado con datos preparados adecuadamente para cada colección. Con colecciones con un tipo de escritura medianamente legible los resultados de error por palabra puede estar entre el 10% y el 20%. Dicho error por palabra puede llegar al 50% para escrituras muy complicadas de leer para los estándares actuales. Con tal cantiad de error por palabra, la búsqueda por términos en una colección con miles o millones de imágenes puede decepcionante para los usuarios. Las técnicas de Indexación Probabilística son una paso más allá del simple RTM, ya que permiten mejorar sustancialmente la búsqueda por términos textuales bajo el paradigma de precisión y cobertura.
La combinación de la Indexación Probabilísitca junto con motores de búsqueda avanzados es actualmente la tecnología más avanzada para procesar grandes colecciones de imágenes de textos manuscritos y poder localizar información útil en tiempo real. Esta tecnologías está actualmente siendo adoptada por archivos históricos para facilitar el acceso los fondos documentales que custodian.
El presente curso pretende introducir todas estas técnicas, ilustrado con multiples ejemplos y casos de uso que actualmente se encuentran en explotación.