Les documents numérisés par les bibliothèques font très souvent l’objet d’une océrisation, c’est à dire d’un traitement informatique de reconnaissance optique de caractères (OCR) qui va chercher à identifier à quel caractère correspond la photographie de tel caractère. La finalité de cette opération est généralement de permettre la production de fichiers pour liseuses, l’indexation par les moteurs, la recherche en texte intégral, la réutilisation, l’exploitation scientifique ou encore la fouille de textes (text mining). Malheureusement, ce type de traitement génère de nombreuses erreurs. Ainsi, une disparité, une déformation, une décoloration, une tâche, un trou dans le papier, des annotations manuscrites, des typographies anciennes, originales, irrégulières ou mal imprimées ou encore une numérisation de mauvaise qualité vont cacher ou déformer l’aspect d’un caractère et tromper le logiciel qui identifiera un autre caractère que celui réellement présent. Les multiples erreurs générées par le logiciel OCR pourront être partiellement corrigées avec l’aide d’une confrontation des textes avec des dictionnaires de mots, mais un contrôle humain demeurera nécessaire car, à l’issue du processus automatisé, jusqu’à 20 % d’erreurs demeureront et seule une correction non automatique sera susceptible de réduire ce pourcentage, dans la mesure où les solutions logicielles ne sont pas encore capables de rivaliser avec les capacités humaines. En ce qui concerne les écritures manuscrites en particulier 1, l’OCR n’existe encore qu’à l’état expérimental (« Intelligent Word Recognition ») et il est fort probable qu’il le demeure encore quelque temps.
Pour toutes ces raisons, les bibliothèques externalisent aujourd’hui ce travail de correction manuelle de l’OCR auprès de prestataires qui font appel à de la main d’œuvre à bas coût, à Madagascar, en Inde ou encore au Viêt Nam. Une alternative à ces coûteuses et parfois critiquables prestations est de faire appel au crowdsourcing, c’est à dire d’externaliser ces opérations auprès de la foule des internautes en les engageant à corriger les textes numérisés volontairement (crowdsourcing explicite), contre rémunération, sous la forme de jeux (gamification) ou encore sans qu’ils en aient conscience (crowdsourcing implicite).
A partir d’un panorama des principaux projets dans le cadre de bibliothèques numériques publiques ou privées, notre étude propose une taxonomie originale des grands types de projets et cherche à en évaluer le rendement en termes financiers.
Source : http://bbf.enssib.fr/contributions/la-correction-participative-de-l-ocr