Objectives
Entraîner le logiciel de reconnaissance automatique de l’écriture manuscrite à partir des annotations collaboratives des délibérations du conseil municipal (1790–1946) afin que le logiciel lise et transcrive l’ensemble du corpus dans des fichiers texte interrogeables pour la recherche.
Specific actions
Transcrire les éléments surlignés des lots de pages manuscrites des délibérations, attribués aléatoirement, via la plateforme d’annotation Callico.
Project description
Objectifs
En partenariat avec Telkia, prestataire spécialisé en traitement automatique de documents avec IA, les Archives municipales de Belfort ont lancé de février à mai 2023 une campagne d’annotation collaborative sur les délibérations du conseil municipal ayant eu lieu de 1790 à 1946.
Le projet consiste à « entraîner » un système de reconnaissance automatique d’écriture manuscrite basée sur des algorithmes d’intelligence artificielle afin qu’il soit en capacité de « lire » l’ensemble des documents de ce corpus et de les transcrire dans des fichiers texte interrogeables.
L’innovation de ce projet consiste dans la nature des documents à transcrire : les délibérations sont du texte libre, non structuré, à la différence des recensements de population par exemple, qui ont déjà fait l’objet de projets de reconnaissance automatique.
La campagne s’adosse à la plateforme Callico sur laquelle les contributeurs peuvent transcrire et annoter des pages de registres, attribuées aléatoirement. Ces annotations sont ensuite versées dans le logiciel qui apprend à reconnaître un maximum de mots.
Cette campagne ne vise pas à transcrire l’ensemble des quelque 20 000 pages du corpus de délibérations mais bien d’entraîner le logiciel pour qu’il sache ensuite lire ce type de manuscrit seul.
Modalités de participation
La transcription collaborative est ouverte à toutes et à tous et il n’est pas nécessaire d’avoir des compétences en paléographie (lecture des écritures anciennes).
Un échantillon aléatoire de 616 pages issues des registres des délibérations du conseil municipal a été constitué et est proposé à la transcription collaborative dans la plateforme Callico.
Il est nécessaire de s’inscrire sur la plateforme Callico et de lire les instructions de transcription. https://teklia.com/fr/blog/202301-annotation-belfort/
Sur l’onglet Projets publics, vous pouvez demander des tâches sur la campagne d’annotation Collection de registres de délibérations municipales. Lire les instructions et cliquer sur Annoter pour commencer la transcription.
Transcrire chaque ligne en suivant les consignes. L’écran d’annotation se divise en deux parties : à gauche, le registre à transcrire, à droite, le formulaire d’annotation. Chaque ligne de texte à transcrire correspond à une ligne d’annotation. Les lignes correspondantes sont surlignées en bleu.
Résultats
Une fois l’échantillon annoté, un système de reconnaissance d’écriture manuscrite a été entrainé avec les transcriptions collaboratives. Le système a ensuite appliqué à l’ensemble des registres des délibérations du conseil, qui seront bientôt disponibles pour une recherche plein texte directement sur le site des archives municipales.
Article issu des actes du colloque 7th International Workshop on Historical Document Imaging and Processing (HIP’23), 2023
Cet article étudie la manière de faire apprendre un modèle de reconnaissance de texte manuscrit à partir d’un corpus de transcriptions imparfaites issues de plusieurs annotateurs (lien)
The participation
Required equipment
Ordinateur et accès internet
Co-managers
Fanny GIRARDOT
Directrice des Archives municipales de Belfort
Archives municipales de Belfort