Usare le tecnologie per automatizzare un processo di analisi complesso
Pubblicato

La trascrizione delle epigrafi, testimonianze storiche incise su materiali spesso deteriorati, è un processo complesso che richiede competenze specialistiche. Erosione, fratture e varianti stilistiche o linguistiche rendono i testi difficilmente leggibili e soggetti a errori interpretativi.
Obiettivo del caso d’uso in oggetto è automatizzare il processo di trascrizione con sistemi OCR addestrati su dataset di epigrafi funerarie e migliorare così la qualità delle trascrizioni con algoritmi avanzati.
L’automatizzazione non esclude comunque l’intervento del catalogatore e/o l’epigrafista, che a fine processo può correggere, integrare e validare la trascrizione automatica, contribuendo così all’apprendimento del sistema.
Oltre alla trascrizione, il caso d’uso prevede l’opportunità di facilitare il riconoscimento di entità chiave presenti nell’epigrafe (ad es.: nomi, tribù, patronimico, cursus honorum, segni relativi alle carriere militari, elementi relativi alle tipologie di navi militari, ecc.) e arricchire i dati trascritti con relazioni dal grafo della conoscenza di I.PaC, per arricchire il contesto.
In questo modo, le epigrafi diventano nodi di una rete di informazioni: dati collegati ad altri reperti, luoghi o personaggi storici, pronti a essere esplorati da ricercatori, catalogatori e istituzioni culturali.
Le tecnologie
L’OCR (riconoscimento ottico dei caratteri) converte immagini di testo in dati leggibili, generati da documenti scansionati o foto. Questi dati possono essere migliorati attraverso Image Processing, ad esempio per rimuovere rumore o correggere distorsioni, migliorando la precisione dell’OCR.
L’Intelligenza Artificiale (IA) potenzia il servizio proposto tramite:
– Modelli di Machine Learning e tecniche di Natural Language Processing (NLP). Il sistema utilizza dataset etichettati per insegnare ai modelli di machine learning a riconoscere caratteri, strutture di testo e schemi linguistici. Col tempo, questi modelli migliorano nell’identificazione di dati complessi e nell’estrazione di informazioni rilevanti.
– Tecniche di image analysis e computer vision. La soluzione adotta tecnologie per migliorare la qualità delle immagini, gestire le foto di bassa risoluzione o scattate in condizioni non ideali (Image Enhancement). Inoltre, si prevede l’utilizzo di tecnologie/modelli di Image Segmentation per fornire un supporto nella identificazione tra testo epigrafico e decorazioni del supporto.
A OCR e AI si aggiungono algoritmi di analisi semantica e di Named Entity Recognition (NER), in grado di riconoscere e correlare nomi, luoghi, titoli e riferimenti presenti nelle iscrizioni.
Disponibile sul portale del Catalogo generale dei beni culturali, Cat-IA è l’agente conversazionale realizzato dall’ICCD grazie ai servizi abilitanti di Ecomic
Pubblicato l’avviso per la partecipazione all’hackathon per lo sviluppo di soluzioni basate sui dati per patrimonio culturale
DPaaS è la piattaforma-laboratorio di Ecomic, Ecosistema digitale per la cultura promosso dal Ministero della Cultura, dalla Direzione generale Digitalizzazione e comunicazione e dall’Istituto centrale per la digitalizzazione del patrimonio culturale – Digital Library
Con DPaas, puoi trasformare un’idea in una soluzione innovativa concreta, grazie a un laboratorio digitale avanzato che semplifica l’elaborazione dei dati culturali, ne favorisce il riuso e accelera la diffusione di nuovi servizi.