CV de Mathieu Andro

Ingénieur-manageur dans le numérique et la veille

Toutes les étapes d’un dispositif complet de veille avec tutoriels vidéos

Au-delà de ces tutoriels vidéos, vous pouvez aussi interroger directement ce chatbot expert qui contient l’ensemble des contenus de notre veille métier.

La veille permet de mettre à jour automatiquement dans le temps une recherche documentaire (cf la recherche Google) afin surveiller automatiquement des sources et de rester à l’état de l’art de son domaine d’expertise, de détecter des opportunités ou des menaces.

Nous avons retenu les outils suivants pour chaque étape du cycle de la veille :

  • InoReader pour surveiller automatiquement les sources RSS
  • KB Crawl pour surveiller aussi les sources non RSS ou avec contrôles d’accès
  • WordPress pour diffuser les veilles en ligne, de manière collaborative et sans silos
  • CorTexT, GPT-4o et NotebookLM pour analyser et datavisualiser des corpus de veille et de la littérature sur tel ou tel sujet
Contenus masquer

Voici également des tutoriels pour chaque étape :

1- Sourcing

1.1- Enquêtes OSINT (Open Source Intelligence)

Recherche inversée d’imageshttps://tineye.com
https://www.clearview.ai
https://pimeyes.com/en
https://yandex.com/images
https://lens.google/intl/fr
https://facecheck.id/fr
Comparer des visageshttp://www.pictriev.com/fc.php
Géolocalisation de photogeospy
https://labs.tib.eu/geoestimation
https://colab.research.google.com/github/Bellingcat/ShadowFinder/blob/main/ShadowFinderColab.ipynb
https://geospy.ai
Estimer l’heure de prise de vue d’une photohttps://www.suncalc.org
Retrouver la météo d’un lieu dans le passéhttps://www.wunderground.com/history
Détection de fake newshttps://platform.sensity.ai/deepfake-detection
https://photosherlock.com
Google Dorks« document confidentiel » inurl:gouv.fr pour repérer les documents confidentiels sur des sites ministériels qui ne devraient donc pas être accessibles en ligne…
Retrouver l’archive d’un site web dans le passéhttps://archive.org

1.2- Identification des sources d’informations grâce à une analyse textuelle

Un bon moyen pour identifier des sources peut être de constituer un corpus via une base bibliographique assez vaste et d’analyser les sources les plus occurrentes dans le corpus via une analyse textuelle (cf vidéos à la fin).

1.3- Recherche des flux RSS des sources

Pour rechercher un flux RSS sur une source, on peut utiliser :

  • Le plugin Want My RSS » pour FireFox
  • La recherche visuelle du logo ou du mot RSS ou par « CTRL » + F pour rechercher le mot « RSS » dans la page
  • Le code source de la page puis « CTRL » + F pour rechercher « RSS » dans le code source
  • La recherche du mot RSS dans le plan du site ou via le moteur de recherche interne du site
  • La recherche via Google : requête = rss site:lemonde.fr
  • La reconstitution d’une URL en ajoutant RSS au nom de domaine. Par exemple : lemonde.fr/rss ou encore lemonde.fr/feed

Pour les publications scientifiques : https://matilda.science/?l=fr ou encore https://scholar.archive.org

Pour Google News : https://news.google.com/rss/search?q=premier ministre inde&hl=fr&gl=FR&ceid=FR%3Afr ou https://news.google.com/rss/topics/CAAqIQgKIhtDQkFTRGdvSUwyMHZNRFl6WjNFU0FtWnlLQUFQAQ?hl=fr&gl=FR&ceid=FR%3Afr (ontologie Google)

Pour Cairn :  https://www.cairn.info/abonnement_flux.php

Il existe également un grand répertoire de flux RSS : http://atlasflux.saynete.net

Pour surveiller Twitter via des flux RSS : https://nitter.net

Conseil méthodologique

Dans la structuration de ses sources, il est conseillé de distinguer :

  • les sources spécifiques qu’on surveillera intégralement car elles publient peu de contenus et/ou une majorité de contenus pertinents pour le veilleur.
  • les sources génériques et « bavardes » qui publient beaucoup de contenus et dont quelques uns seulement sont susceptibles d’intéresser le veilleur. On filtrera ces contenus grâce à des mots clés afin de ne pas être noyé d’informations.

Avec http://atlasflux.saynete.net, il est possible de récupérer des bouquets de milliers de flux RSS en quelques clics. Par exemple, pour récupérer le fichier de tous les flux RSS de la presse :

Une fois le fichier opml, récupéré, il est très facile de l’importer sur n’importe quel outil de veille, comme KB Crawl, Sindup ou InoReader. Sous InoReader, il suffit de se rendre dans « Préférences » puis dans « Import, Export, Sauvegardes » pour importer le fichier dans un dossier de sources :

2- Mise en surveillance

2.1- Surveillance des flux RSS via InoReader

Afin de surveiller un flux RSS via InoReader, par exemple, il suffit simplement de l’ajouter aux abonnements en cliquant sur le plus puis sur le logo RSS ou de rechercher la source tout en haut à gauche et de s’abonner.

Il est ensuite très facile de filtrer avec des mots clés les contenus récupérés et de marquer les articles lus afin de les différencier des nouveaux.

Nous conseillons de distinguer 2 types de sources :

  • les sources très pertinentes et peu « bavardes » à surveiller de manière exhaustive
  • les sources plus « bavardes » et moins pertinentes à filtrer avec des règles à paramétrer sur le modèle ci-après en spécifiant bien qu’on souhaite rechercher l’expression exacte (case à cocher)

Il est ainsi possible d’importer des bouquets de sources à surveiller avec Inoreader :

Pour les filtres Inoreader : https://www.outilsfroids.net/2022/05/mettre-en-place-une-veille-quick-dirty-ii-1-filtrer-les-flux-par-mots-cles-avec-les-regles-inoreader

2.2- Crawler périodique sur les contenus des autres sources via KB Crawl

Pour les sources non compatibles RSS, avec logins, mots de passe ou reconnaissance IP, il est difficile de les surveiller via InoReader mais il existe des solutions comme KB Crawl qui permettent de simuler la navigation d’un humain grâce à un robot qui se connectera automatiquement aux sources et en rapportera les contenus pertinents :

2.3- Utilisation du Speech to text

Un bon moyen de chercher des mots textuels au sein de l’audio des vidéos YouTube est d’utiliser https://filmot.com. Il sera ensuite possible de surveiller, via KB Crawl, des chaînes YouTube ainsi identifiées.

Il peut être utile d’extraire les transcriptions YouTube via https://downsub.com ou encore via https://savesubs.com. Il est également possible de produire ces transcriptions lorsqu’elles sont inexistantes via https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer

Pour transcrire une réunion, on peut utiliser YouTube (vidéo non référencée par exemple), Google Doc, NotebookLM ou GPT-4o pro.

2.4- Comment automatiser sa veille avec Make.com, Perplexity et WordPress

3- Curation

3.1- Sélection des articles pertinents

Sous InoReader, les articles que l’on souhaite publier peuvent être sélectionnés, tagués et publiés dans un flux RSS qu’il est très facile de synchroniser avec WordPress. Il s’agit d’une curation a posteriori.

D’autres veilles peuvent aussi être entièrement automatisées ou faire l’objet d’une curation a posteriori. C’est le cas des veilles presse sur les différents services du premier Ministre.

3.2- Droit d’auteur et propriété intellectuelle

  • Nous ne republions que des synthèses ou des résumés d’articles ou encore de courts extraits de textes entre guillemets et en mentionnant systématiquement les auteurs et les sources.
  • Les images publiées sur la plateforme sont des images libres de droits trouvées via https://search.creativecommons.org ou via la filtre Google image « Licence Creative Commons »
  • Les contenus originaux publiés sur cette plateforme sont diffusés sous licence CC BY.
  • Les contenus crawlés via KB Crawl afin d’automatiser la surveillance de sources sans flux RSS ont fait l’objet d’une redevance payée au Centre Français d’exploitation du droit de Copie. Ils ne sont pas republiés sur la plateforme.

Il est fondamental de respecter le cadre juridique du droit d’auteur. Cela signifie notamment qu’il est interdit de republier ou de charger sur une IA générative comme ChatGPT, des contenus intégraux protégés sans l’autorisation expresse de leurs auteurs ou ayants droit.

Toutefois, certains contenus sont mis à disposition sous licences ouvertes, permettant leur réutilisation dans des conditions spécifiques. Les plus courantes sont les licences Creative Commons et Etalab, dont voici les principales :

  • CC BY – Attribution : autorisation d’exploitation de l’œuvre y compris à des fins commerciales, possibilité de modifier et de créer des œuvres dérivées dont la distribution est libre. C’est la licence la plus ouverte. La seule condition est de citer l’auteur.
  • CC BY ND – Attribution mais pas de modification : il est possible d’utiliser l’œuvre y compris à des fins commerciales. L’attribution est obligatoire, la modification de l’œuvre interdite.
  • CC BY ND NC – Attribution mais pas de modification ou d’utilisation commercial : la plus restrictive. il est possible de copier et partager l’œuvre.
  • CC BY NC – Attribution mais pas d’utilisation commerciale : il est possible d’exploiter l’œuvre, de la modifier mais il est interdit d’en faire une utilisation commerciale. L’attribution est obligatoire.
  • CC BY NC SA – Attribution mais pas d’utilisation commerciale et partage dans les mêmes conditions : il est possible d’exploiter l’œuvre, de la modifier à condition que l’œuvre dérivée soit distribuée sous une licence identique à l’œuvre originale
  • CC BY SA – Attribution et partage dans les mêmes conditions : il est possible d’exploiter l’œuvre y compris à des fins commerciales et de modifier celle-ci à condition que l’œuvre dérivée soit distribuée sous une licence identique à l’œuvre originale.

Pour la veille comme pour les IA génératives, vous pouvez donc librement utiliser :

  • les contenus originaux que vous avez produits ;
  • les textes du domaine public (dont le dernier auteur vivant est mort il y a plus de 70 ans) ;
  • les textes sous licences ouvertes (Creative Commons ou équivalentes), les lois, les rapports publics ou articles scientifiques provenant d’archives ouvertes comme HAL, arxiv ou https://www.documentation-administrative.gouv.fr ;
  • les extraits brefs, à des fins de citation, si leur usage respecte l’exception de courte citation à des fins de critique ou d’analyse.

4- Analyse intellectuelle

Une fois l’article envoyé depuis InoReader vers WordPress, nous pouvons procéder à son résumé intellectuel, à l’ajout de tags et aux changements éventuels d’images d’illustrations.

Mieux vaut, en effet, ne rediffuser que des contenus qui ont été lus par le veilleur et éviter de « noyer » les lecteurs de la plateforme. La synthèse, le résumé et/ou l’extraction de quelques citations de l’article est également préférable afin de faire gagner du temps de lecture à l’usager, mais aussi pour des raisons de qualité et pour des raisons juridiques de respect du droit de propriété intellectuelle.

On pourra également rédiger et résumer l’article, ajouter des catégories pour définir l’endroit où va se publier l’article et ajouter des étiquettes de tags.

Un plugin propose automatiquement des tags en fonction du contenu textuel des articles. Il s’enrichit et apprend des tags que les humains ajoutent.

5- Publication

Les articles publiés sous WordPress peuvent être publiés automatiquement sur Twitter ou autres réseaux sociaux grâce à IFTTT ou Make.com.

6- Diffusion de newsletters périodiques

7- Analyses textuelles de corpus de veille

7.1- Acquisition du corpus

7.1.1- Export d’un corpus de veille depuis WordPress

7.1.2- Export d’un corpus depuis Ebsco Discovery System (EDS)

Il est possible de récupérer un corpus depuis EDS à partir de la liste de résultats.

7.1.3- Export de la littérature scientifique avec Harzing Publish or Perish

Avec cet outil, il est très facile d’extraire des corpus entiers de métadonnées à partir des principales bases bibliographiques scientifiques (Google Scholar, PubMed, Microsoft Academic, Scopus Elsevier, Web of Science) :

https://harzing.com/resources/publish-or-perish

Nous sommes limités à 1000 articles par année de publication. Cette solution est donc à privilégier pour des corpus par trop volumineux. Pour des corpus plus volumineux, mieux vaut passer par OpenAlex.

7.1.4- Export de la littérature scientifique avec OpenAlex ou Lens.org

Le corpus est accessible depuis https://openalex.org/works?sort=cited_by_count%3Adesc&column=display_name,publication_year,type,open_access.is_oa,cited_by_count

Il est exportable ensuite aux formats CSV ou WoS pour être éventuellement convertis dans d’autres formats via Harzing.

Il est possible d’utiliser aussi https://www.lens.org

7.1.5 Export de la littérature scientifique depuis Istex

Il est possible d’obtenir également des textes intégraux ou des annotations pour un usage text mining :

https://www.istex.fr

Les contenus de Istex sont parfois un peu ancien. Le temps que le CNRS achète les corpus aux grands éditeurs.

7.1.6- Scraping d’un corpus de presse avec Google Drive

7.2- Analyses textuelles du corpus

7.2.1- Import du corpus dans CorTexT

Les formats suivants sont supportés par CorTexT (cf documentation) : Crawtext, CSV, DOCX, Europress, Factiva, Guardian, ISI (Web of Science), json (de Twitter…), Lexis Nexis, PDF, RIS (Standard ou RIS Scopus, Elsevier), tem, XLS, XML (Pubmed)

7.2.2- Détection des entités nommées sur un corpus

7.2.3- Identification des termes et concepts dans la littérature

7.2.4- Réseau de groupes sans hypothèses ni préjugés (clusters)

7.2.5- Analyse des entités géographiques sur une carte

7.2.6- Analyse du sentiment par l’IA sur des tweets

7.2.7- Utilisation d’un vocabulaire métier pour annoter et structurer un corpus

8- Utilisation de l’intelligence artificielle générative

8.1- Transcrire de l’audio et produire des comptes-rendus de réunions

8.2- Réfléchir et débattre avec des personas de la société civile

8.3- Réfléchir et débattre avec des philosophes ou des scientifiques virtuels

8.4- Simuler un débat avec des contradicteurs

Un excellent moyen de « muscler » son esprit grâce à la dialectique.

8.5- S’exercer à la communication non violente (CNV) en situation agressive

8.6- Bénéficier d’un professeur virtuel

Chatbot expert : https://chatgpt.com/g/g-678a3e50540481918389e01b707bc243-prof-particulier

8.7- Bénéficier d’un jury blanc pour un recrutement ou un concours

Chatbot Expert pour préparer le Principalat : https://chatgpt.com/g/g-cWAQJQKyh-coach-principalat

8.8- Analyser un corpus métier avec NotebookLM

A titre expérimental, j’ai analysé, avec notebooklm, 50 publications de France Stratégie diffusées en open access via documentation-administrative.gouv.fr. La version gratuite de notebooklm me limite, en effet, à un échantillon de 50 publications (sur les 143 documents versés par France Stratégie à ce jour sur documentation-administrative.gouv.fr).

Pour chaque publication, on obtient un résumé et une indexation. Il est également possible de générer une conversation de type podcast, en anglais autour du corpus ou de l’un des rapports, mais aussi des FAQ, des chronologies, quizz et glossaires.

Mais l’intérêt de notebooklm réside surtout dans la possibilité d’interroger le corpus en langage naturel et d’obtenir des synthèses à la demande. Par exemple, en demandant « Décrivez les obstacles à la rénovation énergétique et les solutions proposées. », on obtient une synthèse fondée sur le corpus et faisant référence à des phrases du corpus :

C’est une manière intéressante d’explorer la littérature produite par une organisation et d’analyser ses principaux axes.

Pour ceux qui veulent expérimenter ce corpus test il est accessible ici : https://notebooklm.google.com/notebook/18908eff-0f80-4891-9d3a-e5066ea4081b

J’ai également constitué un corpus des tutoriels textuels et vidéos, de tous les articles de la veille métier et d’articles dans la littérature professionnelle. Le chatbot expert obtenu permet de poser des questions précises comme, par exemple « comment trouver le flux RSS d’un site web ? »

Pour ceux qui veulent expérimenter ce chatbot expert, il est accessible ici :

https://notebooklm.google.com/notebook/dd9c00f7-3880-41ef-a0ce-53238639d7c2

Il est possible de personnaliser la génération du podcast pour qu’il soit en langue française avec la mention « hosts CAN ONLY SPEAK IN FRENCH »

Bibliographie

Andro Mathieu, Dupin Corinne (2024). Enquête 2024 sur les plateformes de veille : quelques mouvements et toujours plus d’IA. Netsources no 171

Andro, M. & Réault, M. (2023). Veille collaborative : la plateforme WordPress. I2D – Information, données & documents, 2, 120-136. https://doi.org/10.3917/i2d.232.0120

Andro, M., Bondu, J., Dupin, C., Deschamps, C. (2022). Plateformes de veille. Numéro spécial de la revue I2D.

Creative Commons License
Except where otherwise noted, the content on this site is licensed under a Creative Commons Attribution 4.0 International License.