
#4.10 Les prompts sont des données : il va falloir les cataloguer
04/21/24 • 4 min
Les prompts sont des données : va-t-il falloir les cataloguer ?
Selon une enquête de l’Associated Press, déjà 70 % des rédacteurs utilisent l’IA générative pour produire du contenu. Les données sont omniprésentes dans la démarche : dans l’alimentation des modèles, dans les prompts et dans les contenus produits.
Si j’écris demain un article à l’aide d’un traitement de texte, c’est moi qui en serai l’auteur et non Word. Mais si j’écris les prompts qui me permettent de demander à ChatGPT de produire cet article, ou le code d’un logiciel, ce serait donc ChatGPT qui deviendrait l’auteur ? Non, et heureusement, il a déjà été établi par jurisprudence dans plusieurs pays, qu’une IA ne pouvait pas obtenir de droits de propriété sur ses propres créations. L’IA n’a pas de personnalité juridique. C’est l’Humain qui a piloté l’IA qui est reconnu comme auteur de ses créations. Mais demain, le journaliste, le scénariste, mais également le programmeur, le rédacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront à les produire. Pourrait-on aller jusqu’à déposer et protéger un prompt, tout comme on protège un livre, un logiciel ou un scénario ? Peut-être est-ce une idée à creuser. Juristes spécialistes de la propriété intellectuelle, je vous lance la perche ! En tous cas, ces prompts, ce sont également des données. Et il faut les collecter, les stocker, et donc peut-être les protéger, afin de faire le lien entre le prompt et le contenu qu’il a produit. En entreprise, la réplicabilité et l’explicabilité sont des sujets importants. Si je lance deux fois la même requête sur une même base de données, je dois obtenir le même résultat. Sinon, j’ai un problème. Êtes-vous certain que le même prompt lancé dans le même outil d’IA générative, produira le même contenu ? Je ne crois pas, et c’est un vrai problème. Si j’utilise l’IA générative pour transformer une question en langage naturel en requête SQL, la même question donnera-t-elle toujours la même réponse ? Si non, ça sent le crépage de chignon en réunion du lundi matin. Ça peut faire sourire, mais imaginez que votre tableau Excel donne des résultats différents en fonction de l’heure de la journée, de la météo ou de l’âge du capitaine.
Je vous parle beaucoup en ce moment de gouvernance de l’intelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilité de leur cycle de vie, le lien entre le prompt et son résultat, etc. Des tas de métadonnées qu’il va falloir organiser.
Je ne sais pas encore comment nous l’appellerons, mais c’est un outil qu’il va falloir inventer. On y retrouvera : - L’historisation des prompts utilisés, et de leurs métadonnées ; - La traçabilité, le lineage, qui a mené du prompt au résultat. Quel modèle a été utilisé, quelle version, quelles données d’entrainement, etc..
Cet outil permettra également de vérifier les droits d’accès, la conformité des données utilisées, et produites. Et il assurera la piste d’audit nécessaire pour qu’en cas de besoin, le service conformité ou audit interne, voir une autorité extérieure, puissent remonter l’historique.
Vous voyez que le sujet de la gouvernance de l’IA, et des données qui vont avec, n’est pas une mince affaire. On est loin de votre ado tout fier d’avoir utilisé ChatGPT pour rédiger 10 lignes sur la révolution russe !
Si vous envisagez une utilisation sérieuse, et en production, de l’intelligence artificielle, vous devrez passer par les étapes que je viens de décrire. Et si vous cherchez une idée de business à créer dans le domaine du logiciel, regardez du côté d’une plate-forme de traçabilité des usages de l’IA en entreprise... il y a tout un marché !
Les prompts sont des données : va-t-il falloir les cataloguer ?
Selon une enquête de l’Associated Press, déjà 70 % des rédacteurs utilisent l’IA générative pour produire du contenu. Les données sont omniprésentes dans la démarche : dans l’alimentation des modèles, dans les prompts et dans les contenus produits.
Si j’écris demain un article à l’aide d’un traitement de texte, c’est moi qui en serai l’auteur et non Word. Mais si j’écris les prompts qui me permettent de demander à ChatGPT de produire cet article, ou le code d’un logiciel, ce serait donc ChatGPT qui deviendrait l’auteur ? Non, et heureusement, il a déjà été établi par jurisprudence dans plusieurs pays, qu’une IA ne pouvait pas obtenir de droits de propriété sur ses propres créations. L’IA n’a pas de personnalité juridique. C’est l’Humain qui a piloté l’IA qui est reconnu comme auteur de ses créations. Mais demain, le journaliste, le scénariste, mais également le programmeur, le rédacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront à les produire. Pourrait-on aller jusqu’à déposer et protéger un prompt, tout comme on protège un livre, un logiciel ou un scénario ? Peut-être est-ce une idée à creuser. Juristes spécialistes de la propriété intellectuelle, je vous lance la perche ! En tous cas, ces prompts, ce sont également des données. Et il faut les collecter, les stocker, et donc peut-être les protéger, afin de faire le lien entre le prompt et le contenu qu’il a produit. En entreprise, la réplicabilité et l’explicabilité sont des sujets importants. Si je lance deux fois la même requête sur une même base de données, je dois obtenir le même résultat. Sinon, j’ai un problème. Êtes-vous certain que le même prompt lancé dans le même outil d’IA générative, produira le même contenu ? Je ne crois pas, et c’est un vrai problème. Si j’utilise l’IA générative pour transformer une question en langage naturel en requête SQL, la même question donnera-t-elle toujours la même réponse ? Si non, ça sent le crépage de chignon en réunion du lundi matin. Ça peut faire sourire, mais imaginez que votre tableau Excel donne des résultats différents en fonction de l’heure de la journée, de la météo ou de l’âge du capitaine.
Je vous parle beaucoup en ce moment de gouvernance de l’intelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilité de leur cycle de vie, le lien entre le prompt et son résultat, etc. Des tas de métadonnées qu’il va falloir organiser.
Je ne sais pas encore comment nous l’appellerons, mais c’est un outil qu’il va falloir inventer. On y retrouvera : - L’historisation des prompts utilisés, et de leurs métadonnées ; - La traçabilité, le lineage, qui a mené du prompt au résultat. Quel modèle a été utilisé, quelle version, quelles données d’entrainement, etc..
Cet outil permettra également de vérifier les droits d’accès, la conformité des données utilisées, et produites. Et il assurera la piste d’audit nécessaire pour qu’en cas de besoin, le service conformité ou audit interne, voir une autorité extérieure, puissent remonter l’historique.
Vous voyez que le sujet de la gouvernance de l’IA, et des données qui vont avec, n’est pas une mince affaire. On est loin de votre ado tout fier d’avoir utilisé ChatGPT pour rédiger 10 lignes sur la révolution russe !
Si vous envisagez une utilisation sérieuse, et en production, de l’intelligence artificielle, vous devrez passer par les étapes que je viens de décrire. Et si vous cherchez une idée de business à créer dans le domaine du logiciel, regardez du côté d’une plate-forme de traçabilité des usages de l’IA en entreprise... il y a tout un marché !
Épisode précédent

#4.9 Votre plan de métro des compétences, avec Jean-Guillaume Pelletier de Mindmatcher
Cette semaine, Decideo a rencontré Jean-Guillaume Pelletier, associé de Mindmatcher, pour parler de la cartographie des métiers du numérique, à laquelle il a collaboré, pour le compte de GEN - Grande Ecole du Numérique. - Vous avez aidé la Grande Ecole du Numérique, créée en 2015 par le gouvernement, à cartographier les métiers du numérique. Quel a été votre apport et votre rôle dans l'établissement de cette cartographie ? - Quelles ont été les technologies utilisées ? Et les données sur lesquelles vous vous êtes appuyé ? - Comment avez-vous évité les biais ? - On parle de signaux faibles lorsqu'il s'agit d'anticiper des tendances... depuis au moins 20 ans. Qu'y a-t-il de nouveau dans ce domaine ? - La limite de l'IA, comme elle s'appuie sur des données du passé, c'est qu'elle est incapable de prévoir l'imprévisible. Comment avez-vous procédé ? - Est-ce que ce travail peut être reproduit dans les entreprises ? Si vous voulez vous aussi participer à une émission du podcast Decideo, envoyez un email à [email protected].
Épisode suivant

#4.11 Nomination des premiers CAIO (Chief Artificial Intelligence Officer) aux Etats-Unis
L’administration américaine va nommer ses premiers CAIO (Chief Artificial Intelligence Officer) et former ses comités de gouvernance
Suite à l’Executive Order signé par Joe Biden le 30 octobre 2023, l’administration américaine a publié un Mémorandum destiné à l’ensemble des agences et départements de l’administration américaine.
Dans ce document, Shalanda D. Young, précise que les administrations concernées devront nommer d’ici le 28 mai 2024, un Chief Artificial Intelligence Officer (CAIO), dont le document définit le profil, ainsi que former un comité de gouvernance de l’IA.
Les principales responsabilités du CAIO seront les suivantes
coordonner l'utilisation de l'IA dans l’agence gouvernementale ;
promouvoir l'innovation liée à l'IA ;
gérer les risques liés à l'utilisation de l'IA.
Le mémorandum précise que la personne choisie pour occuper cette fonction peut être le directeur des systèmes d’information, ou le directeur du data office ; mais il peut également s’agir d’un recrutement extérieur. La description de poste (en pages 6 et 7 du document) permet de détailler les trois points indiqués ci-dessus et l’ensemble des tâches qui leur sont connectées, dont :
- Un travail de coordination avec l’ensemble des départements et agences de l’administration y compris dans le domaine des ressources humaines afin de prendre en compte l’impact sur les métiers actuels et le besoin de formation ;
- Promotion de l’égalité et de l’inclusion dans les processus de décision ;
- Identification et cartographie des risques, en particulier en matière de sécurité et de respect des droits ;
- Établissement de procédures de contrôle afin de vérifier la conformité des systèmes d’IA utilisés avec les lois et règlements américains ;
Le document prévoit que pour réaliser ces tâches, le CAIO doit avoir une position hiérarchique suffisamment élevée pour d’une part échanger avec les directions des autres agences, et d’autre part vérifier la conformité des systèmes d’IA implémentés dans les directions de sa propre agence.
En parallèle, le document demande à chaque agence de mettre en place un comité de gouvernance de l’intelligence artificielle. Il peut s’agir d’un comité existant (par exemple de gouvernance des données) dont les compétences seront élargies à l’IA.
Devront participer à ce comité au moins les départements suivants : « informatique, cybersécurité, données, vie privée, droits civils et libertés civiles, équité, statistiques, capital humain, achats, budget, affaires juridiques, gestion de l'agence, expérience client, évaluation des programmes, et responsables de la mise en œuvre de l'IA au sein du ou des bureaux de programme de l'agence. Les agences devraient également envisager d'inclure des représentants de leur bureau de l'inspecteur général respectif »
Après cette avancée en matière d’organisation et de ressources, comment les autres pays vont-ils s’organiser ? Quand verra-t-on dans l’administration française, canadienne, suisse ou belge la nomination de CAIOs et de comités de gouvernance de l’IA ?
Si vous aimez cet épisode, vous adorerez
Commentaires de l'épisode
Générer un badge
Obtenez un badge pour votre site web qui renvoie vers ce episode
<a href="https://goodpods.com/podcasts/decideo-data-science-big-data-intelligence-augment%c3%a9e-621095/410-les-prompts-sont-des-donn%c3%a9es-il-va-falloir-les-cataloguer-82061979"> <img src="https://storage.googleapis.com/goodpods-images-bucket/badges/generic-badge-1.svg" alt="listen to #4.10 les prompts sont des données : il va falloir les cataloguer on goodpods" style="width: 225px" /> </a>
Copier