Petite histoire de l'apprentissage de la lecture chez les machines

Apprendre aux ordinateurs à comprendre un texte a constitué l’un des plus grands défis du 20e siècle.

|
03 Avril 2017, 7:00am

Cet article est initialement apparu sur Tedium.

Nous vivons dans un monde où la reconnaissance automatique de visages est devenue si sophistiquée qu'elle nous force à nous interroger sur ses aspects éthiques et moraux.
Aux États-Unis, les capacités du système de reconnaissance faciale du FBI a fait l'objet d'un débat au sein du Congrès. En Chine, on s'interroge sur le bien-fondé de ce même système, utilisé cette fois pour identifier et interpeller les voleurs de papier toilette. À chacun son style.

Mais bien avant que les grandes questions éthiques n'émergent dans le débat public, la technologie a eu une histoire riche et étonnante. Revenons donc quelques instants là où tout a commencé : dans le domaine de la typographie.

La reconnaissance optique de caractères, ou ROC, s'est développée en même temps que l'informatique générale. En 1954, la première machine de reconnaissance optique de caractères a été utilisée dans une entreprise – dans le bureau du célèbre magazine Reader's Digest, plus précisément – même si elle ne permettait pas encore de lire des livres.

À l'époque, la principale application de la ROC consistait à automatiser les tâches de bureau, et dans le cas du Reader's Digest, la technologie était utilisée pour gérer les données commerciales sur les abonnements et les convertir en cartes perforées.

Un long chemin a été parcouru depuis ces débuts balbutiants, et pourtant, la reconnaissance optique de caractères nous semble toujours un peu magique aujourd'hui. Tâchons de soulever le voile du mystère.


Comment la lecture automatique des polices de caractères a influencé la typographie

American Type Founders, une firme constituée de 23 fonderies, a défini les standards de la typographie aux Etats-Unis pendant des décennies. Nombre de polices de caractères très célèbres et d'excellente qualité lui doivent leur nom, comme Franklin Gothic ou Century Schoolbook. (Les typographes d'AFT sont également à l'origine de l'ignoble Hobo, mais nous passerons sur ce petit détail de l'histoire).

Parmi la quantité de polices premium créées chez ATP, une seule a gagné sa place dans la collection du Musée d'art moderne de New-York (le MoMA) : OCR-A, une police de caractères créée en 1966 pour un public extrêmement spécifique – les machines.

Parce que les machines de l'époque étaient incapables de distinguer différentes polices, il a fallu créer une police dédiée à la lecture automatique. Comme l'explique ce document de 1999, Optical Character Recognition: An illustrated guide to the frontier :

La plupart des caractères utilisés aujourd'hui sont dérivés de la calligraphie médiévale, légèrement modifiée par les contraintes des premières techniques d'impression (blocs de bois et caractères mobiles). Pour imiter l'écriture manuscrite, les lignes verticales des caractères avaient été épaissies par rapport aux signes horizontales ainsi que les diagonales NO-SE par rapport aux diagonales NE-SO. Par conséquent, les traits courbes pouvaient varier en largeur en fonction de leur orientation en tel ou tel point de la courbe. Les polices spécialement conçues pour la ROC, telles que OCR-A et OCR-B, elles, possèdent des largeurs uniformes et un contraste exagéré entre des symboles très similaires tels que Ο et 0, ou 1 et l.

OCR-A n'est pas la première police à avoir été inventée pour gérer la lecture automatique, mais elle a constitué un énorme pas en avant : elle proposait un alphabet complet déchiffrable à la fois par les humains et par les machines. Auparavant, on utilisait le processus MCIR, ou reconnaissance des caractères à encre magnétique, une technologie dont vous êtes probablement familier si vous avez encaissé un chèque au cours des 60 dernières années.

Un spécimen de police E-13B, illustrée sur un dépôt de brevet de 1995. Image : Google Patents

Développées dans les années 1950 par le secteur bancaire, les polices MCIR – car il y en a deux – étaient utilisées à l'exclusion l'une de l'autre dans plusieurs pays afin de former les numéros de 0 à 9 et quelques symboles spécifiques utilisés pour communiquer avec les ordinateurs. Si vous résidez en Amérique du Nord ou au Royaume-Uni, vous avez probablement déjà vu E-13B, qui utilise des formes uniques pour chaque caractère. Si vous résidez en France, en Espagne ou en Amérique du Sud, vous êtes sans doute plus familier de la police CMC-7, qui intègre des traits blancs au sein des chiffres. L'encre des caractères MCIR gravés également chargée magnétiquement pour s'assurer que les scanners pourront les détecter.

Une carte de crédit, dont les chiffres sont gravés en police Farrington B. Image : Ed Ivanushkin/Flickr

Autre police remarquable : Farrington B. Cette police de caractères numérique a été conçue à l'aube de la technologie ROC par le développeur David H. Shepard. Elle est toujours utilisée aujourd'hui sur les cartes de crédit et les cartes de débit.

Ces polices ont directement inspiré des polices en forme de bloc, comme celle qui utilisée sur le logo du magazine Byte, elle-même associée aux polices légèrement arrondies des débuts de l'informatique.

OCR-A, que vous avez peut-être entraperçue pour la dernière fois dans un spam ces dernières années, reprenait le principe du MICR en fournissant un jeu de caractères pouvant être détectés indifféremment par un ordinateur ou une paire d'yeux. Le problème, c'est que les ordinateurs étaient singulièrement plus à l'aise dans cette tâche que les humains, qui avaient bien du mal à appréhender le design très stylisé de la police.

« Le résultat, c'est une police qui mélange serif et sans-serif, déplace ses axes, change sa symétrie interne de façon arbitraire, et est facile à reconnaître avec son angularité aiguë, » explique Zach Whalen, professeur associé à l'Université de Washington dans un post de blog. « OCR-A est une police très laide, mais les machines s'en fiche. Au moins, elle n'est pas passe-partout, comme Helvetica, et son aspect est cohérent avec sa fonction technique. »

Il y a donc eu une seconde version de la police, réalisée par le typographe suisse Adrian Frutiger en 1968.

Spécimen de OCR-B. Image : Identifont

Frutiger a été chargé de cette mission par la European Computer Manufacturers' Association (ECMA), qui a estimé qu'OCR-A n'était pas compatible avec un usage humain. Dans un article sur le blog Linotype, le typographe (mort en 2015) a rappelé qu'il avait un avantage sur ses prédécesseurs en ce que la technologie ROC avait été améliorée de manière significative depuis les débuts d'OCR-A. En outre, elle était désormais capable d'identifier des motifs plus subtils. Ainsi, OCR-B ressemble beaucoup plus à police standard européenne que sa prédécesseur.

Pourtant, Frutiger n'a pas eu la tâche facile : par exemple, il a été difficile de garantir que « 8 » et « B » seraient lus par la machine comme des caractères distincts.

Grâce au fruit du travail de Frutiger, OCR-B sera définie comme une norme mondiale par l'Organisation internationale de normalisation (ISO), là où OCR-A avait dû se contenter d'être intronisée par l'American National Standards Institute.

À compter des années 70, ces polices n'ont, techniquement, plus été nécessaires puisque des outils OCR multi-polices sont sortis sur le marché. Pourtant, on a continué à les utiliser un peu partout.


« Un jour que je me trouvais assis à côté d'un homme aveugle sur un vol, ce dernier m'a expliqué que le seul véritable handicap qu'il avait rencontré dans sa vie était son incapacité à lire les documents imprimés. Il était clair que son handicap visuel ne l'empêchait pourtant ni de communiquer, ni de voyager. J'avais trouvé mon prochain défi. »

Ray Kurzweil décrivant comment il a appliqué ses recherches de l'époque, après qu'un homme aveugle lui ait donné l'idée de créer un nouvel appareil. Il a alors créé la Kurzweil Reading Machine, qui permet de numériser une page donnée, d'analyser le texte imprimé et de le réciter consciencieusement à la personne qui désire le lire. Cette invention a permis de détrôner les livres-vinyles et a contribué à susciter l'enthousiasmer du public pour la technologie ROC au milieu des années 70.


Cinq étapes clé de l'évolution de la reconnaissance optique de caractères

En 1952, un employé de l'Agence nationale de sécurité américaine, David H. Shepard, a monté une société appelée Intelligentes Machines Research Corporation dans le but de commercialiser un produit capable de lire. « Nous l'avons fabriqué dans mon grenier », a-t-il déclaré à Associated Press en 1954.

Toujours dans les années 1950, Jacob Rabinow, un employé de l'Institut américain des normes et de la technologie, a construit une machine de lecture en utilisant l'approche dite de la « meilleure correspondance », qui détecte un caractère donné en le comparant à tous les caractères de l'alphabet, avant de suggérer une réponse. « Cela permet de lire des impressions de très mauvaise qualité », explique Rabinow. Au début, la machine ne pouvait lire qu'un caractère par minute, mais elle s'est vite améliorée.

En 1965, le US Postal Service, qui utilisait depuis 1957 une machine de tri construite par Rabinow, a installé une machine à ROC à son bureau de Detroit. Selon une vidéo de la Post Office de 1970, elle était capable de lire 42 000 adresses postales à l'heure.

En 1980, Ray Kurzweil a vendu son entreprise Kurzweil Computer Products à Xerox, qui a amélioré sa technologie pour en faire un outil précieux dans le monde des affaires. Elle existe encore aujourd'hui sous le nom de Nuance.

Au début des années 90, les scanners portables, sont devenus très populaires. Il s'en vendait des centaines de milliers d'unités par an. Ces produits, utilisés essentiellement pour la PAO, ont encore gagné en cohérence grâce à la norme TWAIN. Offrant une excellente qualité de numérisation à plat, ils ont fini par dominer le marché.


Aujourd'hui, la ROC est beaucoup plus puissante qu'elle ne n'était plusieurs décennies auparavant : nous pouvons même l'utiliser sur smartphone et sur le web. Son efficacité hors du commun a cependant un pendant désagréable, puisqu'elle a permis de mettre au point les CAPTCHA ultra pénibles qui essaiment un peu partout sur le web.

Les CAPTCHA que nous utilisons aujourd'hui ont été conçues à l'Université Carnegie Mellon. Les chercheurs ont exploité les faiblesses de la ROC et les ont transformé en outil de sécurité informatique. Selon Luis von Ahn, l'un des créateurs de la technologie, il faut environ neuf secondes pour résoudre un CAPTCHA. (Von Ahn est aujourd'hui le directeur général de DuoLingo, un service d'enseignement de langues.)

La technologie, rachetée par Google en 2009, a fini par devenir une forme de sécurité intégrée aux services de la société, comme Google Books et Street View. Google a annoncé récemment qu'il allait bientôt se débarrasser des CAPTCHA, au profit de techniques de détection automatique.

La technologie ROC n'est pas parfaite, mais est en constante amélioration. Et ces améliorations sont toujours étroitement liées au domaine de la typographie.

L'année dernière, la société Anyline, qui vend un kit de développement logiciel ROC pour appareils mobiles, a décidé de rafraichir un peu les polices ROC traditionnelles.

The AnyOCR font.

« Après 58 ans, nous avons pensé qu'il était temps d'introniser une nouvelle police de caractère ROC. Nous l'avons imaginée nous-même », écrivait Sophie Kreuzer en septembre dernier. « Vous pensez sans doute que les polices OCR sont obsolètes parce que les ordinateurs d'aujourd'hui peuvent lire toutes les polices de caractères, ou presque. Pourtant, elles présentent encore de nombreux avantages. De nombreux secteurs utilisent encore OCR-A/B pour leurs spécifications de produit. »

La société l'a mis à disposition gratuitement, dans l'esprit de la police d'origine : des lettres lisibles par les machines et par les humains.

On ne sait pas si le MoMA lui donnera une petite place dans leur collection, mais c'est tout le mal qu'on lui souhaite.