CV de Mathieu Andro

Ingénieur-manageur dans le numérique et la veille

Andro, M., Saleh, I. (2017). Bibliothèques numériques et crowdsourcing : un état de l’art. pp. 135-160. In Intelligence collective et archives numériques : Vers des écosystèmes de connaissances. Sous la direction de Samuel Szoniecky, Nasreddine Bouhaï, ISTE. ISBN : 978-1-78405-255-3. 238 p

Saisies de notices bibliographiques, indexation et correction de l’OCR de documents numérisés, les bibliothèques ont souvent externalisé certaines de leurs activités à des prestataires ayant recours à de la main d’œuvre à bas coût dans des pays en voie de développement comme Madagascar, l’Inde ou le Viêt-Nam. Mais elles pourraient désormais plutôt faire appel aux foules d’internautes, c’est-à-dire au crowdsourcing afin de réaliser des tâches pour lesquelles leurs propres forces sont insuffisantes. Le développement du crowdsourcing en bibliothèques est particulièrement important dans le domaine de la correction de l’OCR. En effet, les logiciels de reconnaissance de caractères qui convertissent les images des pages numérisées de livres en textes ne donnent pas des résultats fiables à 100 % et, en fonction de la qualité du document original, de celle de sa numérisation, de la typographie, de la présence d’éventuelles annotations manuscrites, il sera nécessaire de corriger les textes obtenus avec l’aide de dictionnaires. La correction de l’OCR est nécessaire afin de permettre des recherches en texte intégral plus efficaces dans les textes numérisés, un meilleur référencement des contenus par les moteurs de recherche, la production de fichiers Ebooks aux formats EPUB ou MOBI pour pouvoir être lus sur des liseuses, des extractions de données via des technologies de text mining ou encore des exploitations scientifiques liées à la culturomique. Cette question du recours au crowdsourcing se pose aujourd’hui de plus en plus aux bibliothèques, aux plus grandes d’entre elles comme aux plus petites. Afin d’y apporter des éléments de réponses et afin d’apporter une contribution conceptuelle originale autour du crowdsourcing en bibliothèques, nous avons rédigé le présent état de l’art, lui-même issu d’un travail de thèse. Il offrira des éléments conceptuels afin de comprendre ce phénomène, une taxonomie et un panorama des projets et des analyses du point de vue des sciences de l’information et de la communication.

Source : https://hal.archives-ouvertes.fr/hal-01603208

Laisser un commentaire