La trascrizione delle epigrafi, testimonianze storiche incise su materiali spesso deteriorati, è un processo complesso che richiede competenze specialistiche. Erosione, fratture e varianti stilistiche o linguistiche rendono i testi difficilmente leggibili e soggetti a errori interpretativi.   

Obiettivo del caso d’uso in oggetto è automatizzare il processo di trascrizione con sistemi OCR addestrati su dataset di epigrafi funerarie e migliorare così la qualità delle trascrizioni con algoritmi avanzati.  

L’automatizzazione non esclude comunque l’intervento del catalogatore e/o l’epigrafista, che a fine processo può correggere, integrare e validare la trascrizione automatica, contribuendo così all’apprendimento del sistema. 

Oltre alla trascrizione, il caso d’uso prevede l’opportunità di facilitare il riconoscimento di entità chiave presenti nell’epigrafe (ad es.: nomi, tribù, patronimico, cursus honorum, segni relativi alle carriere militari, elementi relativi alle tipologie di navi militari, ecc.) e arricchire i dati trascritti con relazioni dal grafo della conoscenza di I.PaC, per arricchire il contesto. 

In questo modo, le epigrafi diventano nodi di una rete di informazioni: dati collegati ad altri reperti, luoghi o personaggi storici, pronti a essere esplorati da ricercatori, catalogatori e istituzioni culturali.   

Le tecnologie

L’OCR (riconoscimento ottico dei caratteri) converte immagini di testo in dati leggibili, generati da documenti scansionati o foto. Questi dati possono essere migliorati attraverso Image Processing, ad esempio per rimuovere rumore o correggere distorsioni, migliorando la precisione dell’OCR. 

L’Intelligenza Artificiale (IA) potenzia il servizio proposto tramite: 

– Modelli di Machine Learning e tecniche di Natural Language Processing (NLP). Il sistema utilizza dataset etichettati per insegnare ai modelli di machine learning a riconoscere caratteri, strutture di testo e schemi linguistici. Col tempo, questi modelli migliorano nell’identificazione di dati complessi e nell’estrazione di informazioni rilevanti. 

– Tecniche di image analysis e computer vision. La soluzione adotta tecnologie per migliorare la qualità delle immagini, gestire le foto di bassa risoluzione o scattate in condizioni non ideali (Image Enhancement). Inoltre, si prevede l’utilizzo di tecnologie/modelli di Image Segmentation per fornire un supporto nella identificazione tra testo epigrafico e decorazioni del supporto. 

A OCR e AI si aggiungono algoritmi di analisi semantica e di Named Entity Recognition (NER), in grado di riconoscere e correlare nomi, luoghi, titoli e riferimenti presenti nelle iscrizioni. 

News correlate
Scorri