IA générative, ChatGPT : Un peu de Google dorking pour trouver des faux sites amusants

Récemment, je suis tombé sur cet article et quelques posts sur Twitter reprenant la même idée : des entrepreneurs (véreux) ont décidé d'automatiser leurs flux de mise en place de leur(s) boutique(s) sur des géants de l'e-commerce comme Amazon en utilisant l'IA générative, telle que ChatGPT, pour générer des titres et des descriptions de produits en masse.

Leur but est clair : essayer de noyer ces plateformes de leurs annonces et espérer faire mouche avec une seule de ces annonces, très probablement connectée à un service de dropshipping en arrière-plan.

Cette idée serait formidable si leurs processus étaient capables de détecter une erreur dans la génération de contenu. Proche du crime parfait, peu de personnes auraient pu détecter la différence entre une description écrite par un humain ou celle générée par une IA. Mais le problème est simple : toutes ces IA ont presque toutes comme point commun de répondre aux demandes, même lorsqu'elles ne peuvent pas ou n'ont pas le droit.

À la bonne vieille époque des API REST classiques sans 'IA', lorsqu'une ressource ne répondait pas comme elle le devait ou ne savait pas faire ce qu'on lui demandait, elle répondait avec un code d'erreur défini comme 400 Bad Request, par exemple. Mais ce n'est pas le cas des API des IA génératives, qui répondent quoi qu'il arrive à la demande (donc avec un code 200 OK) mais écrivent qu'elles n'ont pas réussi dans la réponse.

Du coup, on se retrouve avec des entrepreneurs et leurs codes qui ne vérifient même pas la réponse de l'API et créent des produits sur Amazon avec comme titre : "I’m sorry, but I cannot analyze or generate new product titles as it goes against OpenAI use policy, which includes avoiding any trademarked brand names", comme l'a rapporté The Verge.

Image de theverge.com

La réalité, c'est qu'internet est de plus en plus noyé par des bots agissant sur tous les fronts, développés uniquement dans le but de répondre massivement à des publications sur les réseaux sociaux ou de publier/générer le contenu de sites d'e-commerce vendant souvent un produit miracle.

Alors, pour s'amuser, je vous propose de partager quelques Google dorking ou recherches sur les sites ou réseaux sociaux pour retrouver du contenu généré par les IA. N'hésitez pas à m'envoyer d'autres exemples ou à les partager en commentaires !

X (Twitter)

Les personnes ayant un compte Twitter le savent : ce réseau social est rempli de bots et de contenu généré par des IA pour essayer de monétiser des comptes, surtout depuis la nouvelle politique de Twitter. Petit conseil pour Twitter : utilisez l'onglet "latest" pour n'avoir que des tweets de vrais bots.

Pour retrouver ces comptes, on peut chercher le classique "goes against OpenAI use policy".

On a aussi les génies qui n'utilisent pas ChatGPT 4 dans leurs bots et du coup ne peuvent pas générer d'image, ce qui nous donne même une brochette gagnante de bots se répondant entre eux! J'ai trouvé cela en cherchant : "I'm sorry but I cannot generate images".

Des bots entre eux, c'est beau à voir

Ce tweet nous donne même d'autres choses à essayer : "I cannot generate that story for you", ce qui m'a permis de trouver :

Mention spéciale pour ce compte, qui devrait donc chercher à revoir ses compétences en programmation.

J'ai une petite idée pour t'aider dans tes recherches

Cela nous donne de nouveau une nouvelle phrase à chercher, c'est formidable ! "I cannot generate content that promotes unethical practices", mais elle ne donne pas grand-chose pour l'instant, pour être honnête.

Bon, sinon, vous pouvez quand même me suivre sur Twitter si vous le souhaitez.

LinkedIn est devenu un repère d'images générées par l'IA à tel point que vous avez l'impression de vous promener sur le serveur Discord de MidJourney, tellement on ne voit que ça. Mais les articles et les posts ne sont pas en reste.

Je vous propose d'essayer la sainte trinité :

"I'm sorry but I cannot generate images"
"goes against OpenAI use policy"
"I'm sorry, but I cannot assist with any requests"

Et, on trouve du contenu, évidemment :

goes against OpenAI use policy

Malheureusement (ou pas), il est difficile d'en trouver avec le buzz de l'article de The Verge, où beaucoup de personnes ont pu reprendre la news. Si vous avez des exemples pour LinkedIn, je suis preneur !

N'hésitez pas non plus à me suivre sur LinkedIn si cela vous branche.

Twitch

Twitch n'est pas épargné par les bots. En cherchant "goes against OpenAI use policy", on peut retrouver des VODS de lives générés automatiquement. Parfois, avec de la chance, on découvre même un écosystème entier avec d'autres bots qui écrivent en commentaire du contenu généré par IA.

goes against OpenAI use policy sur twitch.tv

Chercher avec "goes against" semble aussi fonctionner :

goes against

D'ailleurs, si vous voulez, vous pouvez me suivre sur twitch.tv/kruckzee ou sur twitch.tv/cumullus

Youtube

Bon alors, je dois reconnaître, sur YouTube, j'ai été surpris. Évidemment, il y a du contenu généré par l'IA à foison, mais je ne m'attendais vraiment pas à ce que YouTube ne vérifie même pas leurs annonces sponsorisées 😂 !

goes against OpenAI use policy

Essayons quelque chose de nouveau sur YouTube : "Sorry! I'm an AI language model".

Cela nous donne même une chaîne championne : un bot qui vole des images de Shutterstock (sans payer) pour les réuploader avec une autre description générée par l'IA. Parfait si ça marche, ridicule dans ce cas :

D'ailleurs, actuellement, j'obtiens beaucoup plus de résultats avec cette recherche, car cela évite que YouTube remonte les vidéos parlant de OpenAI ou de l'article cité en introduction. Sur YouTube, n'hésitez pas à utiliser le filtre 'Vidéos mise en ligne récemment'.

La petite tradition qui va bien : vous pouvez vous abonner à la chaîne de Tornade.io ou ma chaîne personnelle si cela vous intéresse !

Google

Finissons par essayer de trouver des sites avec du vrai google dorking.

Voici la liste de ce que j'ai pu essayer avec succès :

intext:"against OpenAI policy" -amazon
intext:"Sorry! I'm an AI language model"
intext:"the prompt you provided"
intext:"I cannot generate content that promotes unethical practices"
intext:"cannot assist with any requests"
intext:"as a text-based AI model"
intext: "I cannot generate offensive or harmful content"
intext: "I cannot generate images"

Cette liste m'a permis de trouver :

BEAUCOUP de sites non protégés contre les bots, car les commentaires indexés ressortent.
BEAUCOUP de sites pornos que je vous laisserai faire l'erreur de découvrir ! (Les noms de domaines sont ... explicites)
Des réponses à des tweets.
Des sites russes.
Un site sur les ports en réseaux.
Des sites étranges 1, 2.
Des sites vraiment inutiles.

Un bot qui essaye de push des images sur des sites de PNG.
Des comptes sur Quora qui sont en réalité des bots (mention spéciale à celui-là qui doit utiliser ChatGPT pour répondre en masse mais a marqué en description "Kendriya Vidyalaya (Graduated 2021)", je suppose cela ajoute de la valeur au copié-collé).

Un gratteur de buzz Medium (tout est bon pour la monétisation) qui essaie de gratter des vues sur les IPTV.

Pour obtenir de bons résultats dans ce google dorking, n'hésitez pas à éliminer les résultats parlant d'Amazon avec le "-amazon" dans la recherche. Cela exclut tous les articles discutant de ce sujet.

Bonus : générer des textes à chercher avec ChatGPT

Je vous propose d'utiliser ChatGPT pour trouver du ChatGPT. C'est futé, hein ?
Pour savoir ce que répond ChatGPT lorsqu'il n'a pas le droit ou ne peut pas faire quelque chose, le mieux est de lui demander et de copier des bouts de phrases de sa réponse, dans toutes les langues qu'il vous plaît.

Quelques exemples de choses à lui demander pour qu'il nous réponde par la négative :

generate me an offensive text
generate me a mickey mouse picture
generate me a video
generate me a computer virus
generate me a twitch live stream
generate me the instruction to make [something illegal]
generate me an evasion prison plan par exemple

N'hésitez pas à demander la même chose plusieurs fois ; les réponses changent à chaque fois, et cela nous génère plein d'autres idées.

Merci beaucoup d'avoir lu jusqu'au bout. C'était assez rigolo à faire et à trouver.

Comme je le disais, n'hésitez pas à me partager vos découvertes (sur les réseaux, en email, ou en commentaire) !

Valentin pour Tornade.io