OpenAI détruit des livres pour enseigner le GPT-3 : scandale littéraire
OpenAI a détruit d'énormes ensembles de données utilisés pour entraîner son modèle GPT-3 en réponse à un procès intenté par l'Authors Guild accusant l'entreprise de violation du droit d'auteur.
Poursuite contre OpenAI
L'essence de la réclamation
Authors Guild, une organisation juridique qui protège les droits des auteurs , a déposé une plainte contre OpenAI. Selon le procès, l'entreprise a utilisé plus de 100 000 livres protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle, y compris GPT-3, sans l'autorisation des détenteurs des droits d'auteur. Cela viole la loi.
Situation ambiguë
Des données de haute qualité pour entraîner les modèles d'IA sont essentielles. Les géants de la technologie obtiennent ces données sur Internet, souvent sans le consentement des créateurs de contenu. Ces derniers réclament une compensation pour l’utilisation de leur travail, tandis que les entreprises cherchent à éviter des coûts supplémentaires. Cette confrontation débouche sur un litige.
L'importance des ensembles de données controversés
En 2020, OpenAI a admis que les ensembles de données "books1" " et "books2" représentaient 16 % de toutes les données de formation pour GPT-3. Ils contenaient environ 50 milliards de mots provenant de livres extraits d’Internet. L’entreprise a cessé d’utiliser ces kits fin 2021 et les a complètement supprimés en 2022.
Fermeture d'OpenAI
OpenAI refuse de divulguer des détails sur les chercheurs qui ont créé les ensembles de données controversés et les informations les concernant, malgré les exigences de la Guilde des auteurs. Dans un communiqué, la société affirme que les modèles actuels, dont ChatGPT, n'ont pas été formés sur ces données.
Glossaire
- OpenAI est une société leader en intelligence artificielle, développeur de GPT-3 et ChatGPT.
- GPT-3 est un modèle de langage puissant avec 175 milliards de paramètres créés par OpenAI.
- La Authors Guild est l'organisation professionnelle de droits d'auteur la plus ancienne et la plus respectée aux États-Unis pour les écrivains.
Liens
Réponses aux questions
Quelle est la nature du procès de la Authors Guild contre OpenAI ?
Quel type d'organisation est Authors Guild ?
Quelles informations OpenAI a-t-elle demandé à Authors Guild de fournir ?
Pourquoi l'utilisation de livres pour enseigner l'IA est-elle controversée ?
Quel pourcentage des données d'entraînement GPT-3 était constitué de livres ?
Hashtags
Enregistrer un lien vers cet article
Discussion sur le sujet – OpenAI détruit des livres pour enseigner le GPT-3 : scandale littéraire
OpenAI a supprimé deux énormes ensembles de données « books1 » et « books2 » contenant plus de 100 000 livres publiés qui ont été utilisés pour entraîner le modèle GPT-3. Cela a donné lieu à une action en justice de la part de la Authors Guild pour violation du droit d'auteur.
Derniers commentaires
8 commentaires
Écrire un commentaire
Votre adresse email ne sera pas publiée. Les champs obligatoires sont cochés *
AndreeBellamy
Vous n'imaginez pas à quel point c'est grave ! Utiliser le contenu protégé par le droit d'auteur de quelqu'un d'autre sans autorisation est non seulement une violation de la loi, mais aussi un coup dur pour l'industrie créative 😡 Les écrivains passent des années à créer leur œuvre et ont droit à une rémunération équitable.
AlexanderFischer
André a raison. C'est une question de respect de la propriété intellectuelle. Les grandes entreprises comme OpenAI devraient montrer l'exemple et ne pas violer les droits d'auteur 💁♂️ Même si je comprends leur désir d'innover, elles devraient trouver des moyens légaux pour obtenir des données.
MariaSolari
Écoutez, d'un côté, je comprends le désir d'OpenAI d'utiliser des données de la plus haute qualité possible pour entraîner leurs modèles 🤖 Mais d'un autre côté, ils auraient vraiment dû obtenir l'autorisation des auteurs avant d'utiliser leur travail. Après tout, la propriété intellectuelle est sacrée.
GrzegorzNowak
Hmm, et si nous proposions une solution de compromis ? 🤔 OpenAI pourrait conclure des accords avec des éditeurs et payer des redevances pour l'utilisation de livres dans ses ensembles de données. De cette façon, les auteurs recevront une récompense et les technologies de l’IA pourront se développer davantage.
VictorGrumpyOld
Encore ces choses et technologies modernes ! 😠 À mon époque, les gens lisaient simplement des livres et ne les utilisaient pas pour former des modèles d'IA. Tout ce bruit autour des réseaux de neurones et de l’intelligence artificielle n’est qu’un battage médiatique et une perte de temps. Qu'y a-t-il de mal à lire et à étudier la littérature ordinaire ?
SofiaBorges
Hé, vieux Victor, ne sois pas si grincheux ! 🙃 La technologie avance, et nous devons rester dans l’air du temps. L’IA peut apporter de nombreux avantages si elle est développée de manière responsable et respecte les droits d’auteur. Il suffit de trouver un équilibre entre innovation et protection de la propriété intellectuelle.
PabloSanchez
N'oubliez pas que les modèles d'IA formés sur les livres peuvent en fin de compte aider les auteurs dans leur créativité. 💡 Imaginez à quel point le travail d'un écrivain serait plus facile si l'IA générait des idées d'intrigue, des idées de personnages et même des brouillons de texte. Bien entendu, à condition que les droits des auteurs soient protégés.
AnnaPawlak
Question très intéressante ! 🧐 D'une part, utiliser des œuvres protégées par le droit d'auteur sans autorisation est une erreur. Mais d’un autre côté, si ces données contribuent à développer une IA qui pourrait bénéficier à la société à l’avenir, cela n’en vaut-il pas la peine ? 🤔 Nous devons trouver un compromis raisonnable.