[I.A] Skynet Resistenza!

Macbesse · Message par **Macbesse** » lun. avr. 20, 2026 12:42 am

De mon côté, j'ai donné à l'IA 600 feuillets en ouzbek non normé du milieu des années 20 pour numérisation et mise aux normes orthographiques actuelles.
Cela m'a pris deux semaines de travail à temps plein. C'est toujours mieux que de taper à la main ou de corriger manuellement, mais la vérification a été usante, le LLM employé ayant une vilaine tendance à lisser la langue et à remplacer des mots pour qu'ils collent mieux au contexte probable ou à la langue globale du document, évacuant les nombreux russismes de mes textes pour les remplacer par tout autre chose.
Plus je peux me tenir loin de la machine et m'en tenir à mes compétences, mieux je me porte.

Morningkill · Message par **Morningkill** » lun. avr. 20, 2026 10:34 am

Mais, au final, si tu avais du faire le travail sans IA, ca aurait été plus fatigant ou pas pour toi ? plus couteux en temps ou pas ?

J'aurai pas cru par contre l'IA que savait gérer ce type de travail

Macbesse · Message par **Macbesse** » lun. avr. 20, 2026 12:58 pm

Morningkill a écrit : ↑lun. avr. 20, 2026 10:34 am Mais, au final, si tu avais du faire le travail sans IA, ca aurait été plus fatigant ou pas pour toi ? plus couteux en temps ou pas ?

J'aurai pas cru par contre l'IA que savait gérer ce type de travail

J'aurais pu tout taper à la main, ce qui aurait été plus coûteux en temps encore. Je tape très vite, mais pas encore assez, et c'est une tache pénible. Ensuite, j'ai du du mal à reconnaître certains mots à cause de la graphie et j'aurais dû faire des recherches et m'interrompre. Le problème vient des o, des a et des o', pour lesquels on ne peut pas établir une équivalence stricte (certains o sont devenus des a, d'autres non). Les j ne sont pas toujours évidents non plus. Pour d'autres lettres, c'est plus facile.

Ensuite, les OCR classiques ne fonctionnaient pas et produisaient beaucoup d'erreurs, même après un paramétrage serré, la faute à la basse qualité de certaines photos, prises dans de mauvaises conditions. En nettoyant le résultat d'un OCR, cela m'aurait pris un mois et demi je pense. Je me suis bien emmerdé, mais le gain est substantiel.

Inversement, un LLM peut très bien déduire les mots, mais il faut lui donner plein de contraintes pour éviter les hallucinations. Mon protocole comportait une bonne vingtaine de lignes de consignes, dont une liste de noms propres récurrents, l'injonction à ne pas améliorer les phrases ou moderniser la langue, la préservation des mots empruntés à d'autres langues. Il fallait le répéter toutes les vingt-trente pages, le LLM ayant tendance à n'en faire qu'à sa tête au bout d'un certain temps. Je le nourrissais aussi du texte corrigé pour qu'il aille au plus proche de ce que je voulais. Donc oui, c'est possible et c'est un gain de temps, mais faut vraiment être derrière, page par page.

Ensuite, j'ai donné l'intégralité du texte à DeepL, qui a fourni un truc à peu près compréhensible et sensé, et j'ai fait une version à deux colonnes, que j'ai ensuite débarrassée de ses bêtises, comme des traductions de pseudonymes en noms communs (on ajoute trois jours de travail). Sans être la panacée, c'est une aide pour me repérer vite dans le document et l'étudier dans sa globalité. Ensuite, quand un passage m'intéresse vraiment et que je veux le citer, je le retraduis intégralement à la main.

À la main, je peux traduire des documents entiers, mais je tourne à 10-15 pages par jour en fonction de la difficulté de la langue. C'est plutôt élevé, mais ça reste lent. L'avantage, c'est que j'en retire une connaissance très intime du document, du point de vue du contenu comme de la langue, et que je ne rate rien.
C'est possible pour des documents de plusieurs dizaines de pages mais pas pour un document de 600 pages dont j'avais besoin de prendre connaissance rapidement et dont le déchiffrement fin m'aurait bien pris deux mois, deux mois et demi.

L'autre option est de faire une lecture cursive, sans traduire et en prenant des notes, mais je sais que j'ai tendance à laisser passer des petites choses dans ce cas-là. Le gain de temps par rapport à cette solution n'est pas si évident et mérite d'être réfléchi. Pour 600 pages, en russe, où je suis fluent, ça me prend deux semaines (gain marginal), en ouzbek, où je suis juste compétent, entre trois et quatre (gain de 50% avec un texte complet en prime).

Vorghyrn · Message par **Vorghyrn** » lun. avr. 20, 2026 2:04 pm

Après, le niveau au-dessus du prompt c'est du multi-agent.

@Macbesse avec des couples effecteur / vérificateur (potentiellement plusieurs si tu sens qu'il y a des concepts de vérification bien distincts) + découpage de ton texte en partie (avec un couple par partie) aurait eut être un peu diminué le niveau d'hallucination.

c'est un peu comme le code : écrire des fonctions, découper les tâches etc... rend les agents plus fiables. Ca prend plus de temps à faire mais c'est un vrai trade-off avec la fiabilité et reproductibilité. Perso, j'en suis à préférer un gain moins net de temps mais un résultat plus fiable et plus automatisable. Et la différence avec le code, c'est qu'il n'y a pas besoin de connaitre un langage de programmation

Macbesse · Message par **Macbesse** » lun. avr. 20, 2026 2:33 pm

Vorghyrn a écrit : ↑lun. avr. 20, 2026 2:04 pm @Macbesse avec des couples effecteur / vérificateur (potentiellement plusieurs si tu sens qu'il y a des concepts de vérification bien distincts) + découpage de ton texte en partie (avec un couple par partie) aurait eut être un peu diminué le niveau d'hallucination.

J'avais découpé. Au-delà de trois pages, les hallus augmentaient en fréquence. Au-delà de cinq pages, c'était le plantage. Par contre, je retiens la solution du couple.

Morningkill · Message par **Morningkill** » lun. avr. 20, 2026 2:36 pm

Macbesse a écrit : ↑lun. avr. 20, 2026 12:58 pm Inversement, un LLM peut très bien déduire les mots, mais il faut lui donner plein de contraintes pour éviter les hallucinations. Mon protocole comportait une bonne vingtaine de lignes de consignes, dont une liste de noms propres récurrents, l'injonction à ne pas améliorer les phrases ou

c'est pas beaucoup 20 Ligns : notre prompt de correction des transcripts audio en fait 100, alor qu'on parle juste de mettre a niveau la transcription audio de visio en francais

#### Common phonetic errors

- Misinterpreted homophones (e.g., "been" vs "bean")
- Distorted technical words (e.g., "Oracle" transcribed as "oracle")
- Misspelt proper names
- Unrecognised or incorrectly segmented acronyms

et on lui dit aussi d'extraire les corrections qu'il a trouvé tout seul , les noms de personnes, aussi, pour que par la suite ces corrections qu'il a trouvé (et qu'on a validé) soient automatiquement pris en compte pour les prochains transcripts a corriger.

moderniser la langue, la préservation des mots empruntés à d'autres langues. Il fallait le répéter toutes les vingt-trente pages, le LLM ayant tendance à n'en faire qu'à sa tête au bout d'un certain temps. Je le nourrissais aussi du texte corrigé pour qu'il aille au plus proche de ce que je voulais. Donc oui, c'est possible et c'est un gain de temps, mais faut vraiment être derrière, page par page.

20- 30 pages, oui tu devais avoir rempli le contexte brute

Après, on en reivent à : L'IA ne fait pas un travail parfait. L'IA ne nous remplace pas à 100%. On n'est pas payé pour juste copier-coller le résultat de l'IA.

Macbesse · Message par **Macbesse** » lun. avr. 20, 2026 2:50 pm

Morningkill a écrit : ↑lun. avr. 20, 2026 2:36 pm
Macbesse a écrit : ↑lun. avr. 20, 2026 12:58 pm Inversement, un LLM peut très bien déduire les mots, mais il faut lui donner plein de contraintes pour éviter les hallucinations. Mon protocole comportait une bonne vingtaine de lignes de consignes, dont une liste de noms propres récurrents, l'injonction à ne pas améliorer les phrases ou

c'est pas beaucoup 20 Ligns : notre prompt de correction des transcripts audio en fait 100, alor qu'on parle juste de mettre a niveau la transcription audio de visio en francais.

#### Common phonetic errors

- Misinterpreted homophones (e.g., "been" vs "bean")
- Distorted technical words (e.g., "Oracle" transcribed as "oracle")
- Misspelt proper names
- Unrecognised or incorrectly segmented acronyms

et on lui dit aussi d'extraire les corrections qu'il a trouvé tout seul , les noms de personnes, aussi, pour que par la suite ces corrections qu'il a trouvé (et qu'on a validé) soient automatiquement pris en compte pour les prochains transcripts a corriger.

moderniser la langue, la préservation des mots empruntés à d'autres langues. Il fallait le répéter toutes les vingt-trente pages, le LLM ayant tendance à n'en faire qu'à sa tête au bout d'un certain temps. Je le nourrissais aussi du texte corrigé pour qu'il aille au plus proche de ce que je voulais. Donc oui, c'est possible et c'est un gain de temps, mais faut vraiment être derrière, page par page.

20- 30 pages, oui tu devais avoir rempli le contexte brute

Après, on en reivent à : L'IA ne fait pas un travail parfait. L'IA ne nous remplace pas à 100%. On n'est pas payé pour juste copier-coller le résultat de l'IA.

Vingt items en fait, je me suis mal exprimé. Ca doit faire plus de vingt lignes en fait puisque chacun est détaillé. Mais j'aurais peut-être pu détailler encore.
J'avais fait l'insertion des corrections trouvées. Ce qui est intéressant, c'est qu'il est capable de le déduire et de l'implémenter lui-même dans le protocole et de le mettre à jour, ce qui permet de le récupérer.

Vorghyrn · Message par **Vorghyrn** » lun. avr. 20, 2026 2:53 pm

Morningkill a écrit : ↑lun. avr. 20, 2026 2:36 pm
Macbesse a écrit : ↑lun. avr. 20, 2026 12:58 pm

Après, on en reivent à : L'IA ne fait pas un travail parfait. L'IA ne nous remplace pas à 100%. On n'est pas payé pour juste copier-coller le résultat de l'IA.

100% d'accord

je viens de me faire une espèce de recherche intensive sur des white paper, articles scientifiques, rapports de toutes sortes etc... sur un sujet tech / business (donc 50% selon dans mon domaine de compétence). J'ai écris un agent de recherche avancé qui a fait des recherches et écrit un rapport.

Honnêtement les sources sont pertinente et le rapport plutôt bon (j'ai pris 2 bonnes heures pour le disséquer et extraire les hallucinations, peu nombreuses). Je dois encore le compiler et le digérer. Donc travail bien avancé mais pas exploitable directement tel quel. Au total ça va me prendre une grosse demi-journée. Seul, avec mon google-fu, ça aurait été au moins 2 jours et pas sûr que j'aurais trouver certaines de ces sources. Par contre je pense que mes analyses seront meilleures. Je trouve que c'est plutôt un bon usage de l'IA

Macbesse · Message par **Macbesse** » lun. avr. 20, 2026 4:08 pm

Vorghyrn a écrit : ↑lun. avr. 20, 2026 2:53 pm
100% d'accord

je viens de me faire une espèce de recherche intensive sur des white paper, articles scientifiques, rapports de toutes sortes etc... sur un sujet tech / business (donc 50% selon dans mon domaine de compétence). J'ai écris un agent de recherche avancé qui a fait des recherches et écrit un rapport.

Honnêtement les sources sont pertinente et le rapport plutôt bon (j'ai pris 2 bonnes heures pour le disséquer et extraire les hallucinations, peu nombreuses). Je dois encore le compiler et le digérer. Donc travail bien avancé mais pas exploitable directement tel quel. Au total ça va me prendre une grosse demi-journée. Seul, avec mon google-fu, ça aurait été au moins 2 jours et pas sûr que j'aurais trouver certaines de ces sources. Par contre je pense que mes analyses seront meilleures. Je trouve que c'est plutôt un bon usage de l'IA

Mon domaine est trop mal numérisé / indexé pour que je puisse le faire. En fait, il y a pas mal de ressources en ligne, mais dans des formats image pure et/ou avec des métadonnées lacunaires. Quand j'essaye de lancer un outil comme Elicit sur une recherche de sources ou une compilation de l'historiographie, il ne me donne que le plus évident.
Ca changera peut-être avec le temps.

Mais sinon, 100% d'accord aussi.

Après, on a, chacun dans notre domaine, une certaine expérience. Pour des gens plus jeunes et moins expérimentés, je me dis que ça doit être sacrément intimidant.

Rosco · Message par **Rosco** » lun. avr. 20, 2026 8:40 pm

Reportage de tf1 aujourd'hui, sur l'utilisation de l'IA à l'assemblé nationale française.
Les deputes interogés disent ne pas utiliser l'IA.
Les journalistes recuperent 200 amendements et les font analyser par une socièté spécialisée dans la reconnaissance de l'usage d'IA.
Bilan
16.5% des textes sont suceptible d'avoir été redigé par IA.
18% ont été redigé par une IA.

Morningkill · Message par **Morningkill** » lun. avr. 20, 2026 9:30 pm

Je suis pas trop convaincu par ton reportage :
- combien de députés ont ils interrogés ?
- le detection de texte ecrit par IA, c'est incertain, a moins quela techa it bcp évolue
- que veux dire rédigé ? Ecrit integralement, juste certains passages, ou corrigé ?

cdang · Message par **cdang** » mar. avr. 21, 2026 12:16 am

@Macbesse a donc un métier où il doit rapidement prendre connaissance d'un texte ouzbek des années 1920.... Décidémment, ce monde me fascine...

Sinon, concernant les textes de loi, ça a une formulation assez normalisée il me semble. C'est donc à la fois un domaine où l'IA peut être performante, et donc du coup on peut s'imaginer que le test peut avoir des faux positifs... C'est pas pour défendre les député.es dont je n'imagine pas un seconde qu'iels de cèdent pas aux sirènes de la facilité.

Autre hypothèse : il s'agit de textes transmis par des lobbies qui les ont fait rédiger par des IA, ainsi les députés ne mentiraient pas...

CasusNO

[I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!