Coulombe, Marc-Antoine (2024). Conception d'un système de reconnaissance optique de caractères imprimés et manuscrits sur formulaires fédéraux et documents historiques. Mémoire. Rimouski, Université du Québec à Rimouski, Département de mathématiques, informatique et génie, 292 p.
PDF
Télécharger (9MB) | Prévisualisation |
Résumé
« La préservation, la retranscription et l'accessibilité des documents manuscrits représentent un enjeu coûteux et complexe pour le gouvernement du Canada. De plus, les données pouvant être de nature confidentielle, l'utilisation de solutions privées représente un risque pour l'intégrité de l'information. Ce projet de recherche vise ainsi à développer un système de reconnaissance optique des caractères (OCR) sur des formulaires structurés puis de quantifier le taux d'exactitude et le temps de traitement requis afin d'établir une référence pour de futurs développements. Le taux d'exactitude visé doit être supérieur à 85% en comparaison à un opérateur humain et doit traiter un document de quinze cases en moins d'une minute pour être économiquement viable. Le projet doit aussi permettre de déterminer des pistes de solutions en vue de développer une solution plus complexe pour des documents non-structurés de nature historique. Afin d'atteindre ces objectifs, les principales étapes d'un système de reconnaissance de caractères sont étudiées et décomposées : le prétraitement, la segmentation, l'extraction des caractéristiques, la classification d'images et le post-traitement. Des solutions telles que la méthode ORB, la détection de contours, la transformée en cosinus discrète (DCT), la transformée en ondelettes discrète (DWT), la transformée de Hough et 190 réseaux de neurones différents sont notamment utilisés afin de détecter la position du texte dans l'image, d'extraire les caractéristiques et réaliser la classification des caractères. Sur un formulaire structuré avec une écriture typographique, le taux d'exactitude moyen après post-traitement est de 91,99% et il faut en moyenne 4,02 s pour traiter une case. Pour une écriture manuscrite, le taux d'exactitude après post-traitement est de 94,27% et il faut en moyenne 5,90 s pour traiter une case atteignant ainsi les objectifs fixés en termes de taux d'exactitude. Des améliorations restent cependant à apporter, notamment au niveau de l'écriture typographique, du seuillage ainsi que la segmentation de caractères collés pour améliorer l'exactitude. Au niveau du temps de traitement, la méthode proposée à l'aide de fenêtrage ainsi que le dictionnaire pour les prénoms sont des avenues moins prometteuses. Au niveau des documents historiques non-structurés, ceux-ci ont seulement été abordés. Toutefois, les résultats obtenus pour les formulaires structurés permettent d'établir que les principaux défis se trouvent au niveau de la détection du texte, la correction de l'alignement et de l'inclinaison ainsi que dans la segmentation de l'écriture cursive. Une solution à base de réseau de propositions régionales (RPN), de réseau de neurones convolutifs (CNN) et de réseaux de neurones récurrents (RNN) est suggérée afin de pallier certaines faiblesses observées. -- Mot(s) clé(s) en français : Intelligence artificielle, reconnaissance de caractères manuscrits, HCR, documents historiques, réseaux de neurones, OCR, reconnaissance optique de caractères. »--
« The preservation, transcription, and accessibility of handwritten documents represent a costly and complex challenge for the government of Canada. Additionally, as the data may be of a confidential nature, the use of a private solution poses a risk to the integrity of the information. Therefore, this research project aims to develop an optical character recognition (OCR) system for structured forms and to quantify the accuracy rate and processing time required to establish a benchmark for future development. The targeted accuracy rate should exceed 85% compared to a human operator and should process a fifteen-box document in less than a minute to be economically viable. The project should also identify potential solutions for developing a more complex solution for unstructured documents of a historical nature. To achieve these objectives, the main steps of a character recognition system are studied and broken down: preprocessing, segmentation, feature extraction, image classification, and post-processing. Solutions such as the ORB method, contour detection, discrete cosine transform (DCT), discrete wavelet transform (DWT), Hough transform, and 190 different neural networks are notably used to detect the position of text in the image, extract features, and perform character classification. On a structured form with typewritten text, the average accuracy rate after post-processing is 91.99%, and it takes an average of 4.02 seconds to process a box. For handwritten text, the accuracy rate after post-processing is 94.27%, and it takes an average of 5.90 seconds to process a box, thus meeting the set accuracy objectives. However, improvements are still needed, particularly in terms of typewritten text, thresholding, and segmenting stuck characters to enhance accuracy. Regarding processing time, the proposed method using windowing and a dictionary for first names are less promising avenues. Regarding unstructured historical documents, they have only been addressed. However, the results obtained for structured forms indicate that the main challenges lie in text detection, alignment, and tilt correction, as well as in the segmentation of cursive writing. A solution based on regional proposal networks (RPN), convolutional neural networks (CNN), and recurrent neural networks (RNN) is suggested to address some of the observed weaknesses. -- Mot(s) clé(s) en anglais : Artificial intelligence, Handwritten character recognition, HCR, Historical documents, Neural network, OCR, Optical character recognition. »--
Type de document : | Thèse ou mémoire de l'UQAR (Mémoire) |
---|---|
Directeur(trice) de mémoire/thèse : | Méthot, Jean-François |
Information complémentaire : | Mémoire présenté dans le cadre du programme de maîtrise en ingénierie en vue de l'obtention du grade de maître ès sciences appliquées (M. Sc. A.) |
Mots-clés : | Reconnaissance optique des caractères - Dispositifs ; Documents d'archives - Numérisation - Canada ; Intelligence artificielle - Logiciels ; Documents historiques ; Formulaires structurés. |
Départements et unités départementales : | Département de mathématiques, informatique et génie > Génie |
Date de dépôt : | 13 févr. 2025 13:59 |
Dernière modification : | 13 févr. 2025 13:59 |
URI : | https://semaphore.uqar.ca/id/eprint/3138 |