Nvidia wordt aangeklaagd voor schenden auteursrecht met AI-platform NeMo

Drie Amerikaanse auteurs hebben een class action tegen Nvidia ingediend bij de rechtbank. Het drietal beweert dat de chipfabrikant hun met auteursrecht beschermde boeken zonder toestemming heeft gebruikt om het AI-platform NeMo te trainen.

Auteurs Brian Keene, Abdi Nazemian en Stewart O'Nan beweren dat hun werk gebruikt is in een dataset van meer dan 196.000 boeken voor het trainen van NeMo's grote taalmodellen in de afgelopen drie jaar. Dat meldt persbureau Reuters. Het drietal is op zoek naar een ongespecificeerde vergoeding voor alle betrokken auteurs in de Verenigde Staten van wie Nvidia auteursrechtelijk beschermde werken heeft gebruikt. Na meldingen van auteursrechtschendingen heeft Nvidia de dataset in oktober verwijderd. Nvidia heeft nog niet op de aanklacht gereageerd.

Het aantal rechtszaken tegen AI-bedrijven loopt hiermee op. Eerder klaagde The New York Times de maker van de ChatGPT-chatbot OpenAI aan. Het bedrijf heeft volgens de krant 'miljoenen' artikelen van het medium gebruikt om zijn chatbots te trainen. Ook Stability AI, de maker van beeldgenerator Stable Diffusion, werd onlangs aangeklaagd door Getty Images. De stockfotodatabank beweert dat Stability AI ongeoorloofd gebruik heeft gemaakt van de afbeeldingen van Getty om de AI-tool te ontwikkelen.

NeMo is een framework van Nvidia dat zich richt op het creëren en trainen van AI-modellen, met name voor spraak- en taalverwerking. NeMo staat voor neural modules. Het platform maakt gebruik van de gpu-technologie van Nvidia om modellen die met NeMo zijn gemaakt, sneller te trainen.

Nvidia NeMo
Nvidia NeMo

Door Sabine Schults

Redacteur

11-03-2024 • 15:28

22 Linkedin Whatsapp

Lees meer

Reacties (22)

22
22
9
1
0
9
Wijzig sortering
Copyright is het alleenrecht om kopieën te maken (of dit recht tegen een vergoeding aan anderen te verlenen). Maar waarom zou dit betekenen dat men het alleenrecht heeft om AI's te trainen, of daar een vergoeding voor te krijgen?

Het trainen van de AI lijkt meer op het leren uit een studieboek, dus moeten studenten straks ook nog een extra vergoeding betalen bovenop de kosten van het boek?
"Copyright is het alleenrecht om kopieën te maken"
Sorry, maar dat is vééls te kort door de bocht. Copyright betreft eigendom over een bepaald werk, voor een beperkte tijd, en het recht te bepalen hoe dit werk gebruikt wordt. Waaronder het recht op wie kopieën maakt.

Of de rechthebbenden hier aan het langste eind gaan trekken is zeker niet gegarandeerd, maar onder de paraplu van Intellectual Property hebben ze zeker een gegronde reden om de rechtzaak aan te spannen tegen een partij die een AI traint op hun werk of werken.
Dit is een foute veronderstelling. Met name in de VS mag het auteursrecht niet gebruikt worden om gebruik te beïnvloeden. Er is een limitatieve opsomming van de rechten die je wél hebt.
the owner of copyright under this title has the exclusive rights to do and to authorize any of the following:

(1) to reproduce the copyrighted work in copies or phonorecords;

(2) to prepare derivative works based upon the copyrighted work;

(3) to distribute copies or phonorecords of the copyrighted work to the public by sale or other transfer of ownership, or by rental, lease, or lending;

(4) in the case of literary, musical, dramatic, and choreographic works, pantomimes, and motion pictures and other audiovisual works, to perform the copyrighted work publicly;

(5) in the case of literary, musical, dramatic, and choreographic works, pantomimes, and pictorial, graphic, or sculptural works, including the individual images of a motion picture or other audiovisual work, to display the copyrighted work publicly; and

(6) in the case of sound recordings, to perform the copyrighted work publicly by means of a digital audio transmission.
Het grote probleem hier is dat "AI trainen" niet expliciet in deze lijst staat. De klagers zullen hier moeten aantonen onder welk van deze punten AI trainen dan wel valt.
Toegegeven, ik ben geen expert, maar valt een AI trainen niet onder "derivative work"?
Ik zou zeggen van wel. Je gebruikt de AI niet om het hele boek te lezen, dus is het gebruiksdoel anders. Stel de AI zou je het hele boek voor kunnen schotelen, dan zou ik wel gaan twijfelen. Als je de data niet mocht gebruiken, dan zou je ook geen samenvatting of review mogen schrijven, dus deze rechtzaak lijkt niet te winnen.

[Reactie gewijzigd door MrFax op 11 maart 2024 18:29]

De meeste AI copyright claims gingen echter over het gebruik van teksten uit de boeken om antwoorden te genereren, om de echte inhoud dus. Hier lijkt het te gaan om het trainen van correct taalgebruik, als dat ook onder derivative work valt dan kan bij wijze van spreken elke schrijver wiens boeken op een boekenlijst zijn terechtgekomen dezelfde claim maken als de scholier ergens in de toekomst nog eens een tekst schrijft of typt.
Terwijl de kans dat iemand een rechtzaak op die claim zou winnen erg klein is weet ik niet of de rechter dat risico hier zou willen lopen. Kinderen leren een taal door voorbeelden te zien en horen, de aanklagers zouden moeten aantonen dat de AI hier niet dat aan het doen is maar gewoon de inhoudt aan het gebruiken is.
Nee. Een derivative work is substantieel gebaseerd op het origineel. Een derivative work kan daarom één of hooguit een handjevol originele werken hebben, maar geen duizend, laat staan een miljoen.
Ik denk dat je kunt beargumenteren dat een LLM een 'kopie' maakt van het werk. Het is geen perfecte kopie, zoals we van computers gewend zijn, maar een gedegradeerde representatie van het origineel in het netwerk van gewichten. In sommige gevallen kun je die kopie er ook (gedeeltelijk) weer uit krijgen met een slimme prompt.
In jouw vergelijking:

Een student betaald om het boek te kunnen lezen, en vervolgens moet de student ook nog correcte bronvermelding geven als er stukken geciteerd worden.

Hier word het AI model getraint zonder dat er betaald is om het bron materiaal te lezen, en wordt er geen bronvermelding gedaan ondanks dat 'delen' geciteerd worden. (Antwoorden zijn immers een samenstelling van al het bron materiaal)

Dus op 2 manieren; zowel niet betalen om het te kunnen lezen, als het niet erkennen van het bron materiaal doet het model het fout. (Aannemen dat alles klopt qua stellingen)
Zijn het boeken waarvoor niet betaald is? Zie dat namelijk niet terug.

In principe worden er modellen getrained dus het is niet dat het bepaalde boeken citeert maar het kan wel ervoor zorgen dat het invloed heeft op zijn resultaat.

Dus het is een beetje meh, i guess. Als ze het niet betaald hebben mits het niet gratis was, is dat inderdaad niet goed.

Maar goed, zal vast wel andere regels zijn met betrekking auteur recht anders hadden ze geen klacht ingediend/rechtzaak.
Ook als je een boek heb gekocht, mag je niet deze gebruiken waarvoor je maar wilt.

Daarnaast zie ik als groot probleem dat het 'ineens' wel goed is wanneer je heel veel copyrighted werk gebruikt in je dataset. Ik denk dat niemand het goed zou vinden dat als een bedrijf een model trained op al het werk van een enkel persoon, maar als het van heel veel mensen wordt gebruikt dan is het in een keer wel oké.
Maarja, de student moet bronvermelding doen als die letterlijk stukken citeert, maar niet als die zelf tekst schrijft obv zijn/haar eigen interpretatie van die originele tekst.
Daarom dus een rechtzaak om te kijken wat de wet hierover zegt.

En als je dan toch vergelijkt.. is het meer hier lees dit gestolen werk en gebruik dit om geld voor mij te verdienen.
Moet de maker van het gestolen werk daar iets voor terug krijgen, in mijn ogen wel want anders had hij daar een ander prijs kaartje aan gegeven, zeker als je het kon verkopen aan een NVIDIA of ander miljarden bedrijf.
De Amerikaanse wet in zijn geheel , goed om even na te kijken en voor informatie rondom het thema.
"Even" een beetje licht leesvoer om een globale indruk te krijgen, uhm mijn aquarium staat in brand helaas nu geen tijd.
Probleem met al die wetgeving is dat het gemaakt is met de gedachte dat het om mensen gaat. Ze zijn altijd verouderd als er nieuwe technologie beschikbaar komt die niet bekend was toen de wet geschreven werd.
Als een mens een boek leest dan kan die dat niet woordelijk onthouden. Maar een computer kan dat wel.

Wat stukjes met de hand overschrijven van een boek was in het verleden geen probleem, want het was ondoenbaar om grote stukken tekst op die manier over te nemen.

Een kopietje maken was geen probleem, want kopien waren van slechte kwaliteit en kostbaar. Een heel boek kopieren was ondoenlijk en duurder dan een extra boek kopen.

Nu het tegenwoordig simpel en goedkoop is geworden zijn regels daaromtrend ook aangepast.

Voor AI zullen ongetwijfeld ook aanpassingen komen.

Het punt dat die boeken eerst gekocht hadden moeten worden voor de inhoud gebruikt werd om een AI te trainen is iets dat nu al duidelijk is.
Hebben ze betaald voor die 200.000 boeken? Dat word me nergens duidelijk.

Overigens gaat het hier om normale romans zo te zien. Dat vind ik weer van een andere aard dan wanneer je een theorie of een methodiek in een boek publiceert.
Hoe krijg je een boek in de trainingsset zonder te kopiëren?
Door het te leren tijdens het lezen :-P
Copyright heeft veel meer omvang dan alleen het alleen recht op het produceren van kopieën. Dan hebben we ook nog Auteursrecht in Nederland wat meer in lijn is wat jij bedoelt maar ook daar zitten nog meer rechten aan vast.

In beide gevallen mag een bedrijf dit niet gebruiken in een tool als AI omdat er redelijk kans bestaat dat een deel van het werk openbaar wordt gemaakt zonder toestemming van de maker. Wie zegt dat AI niet een zin of 2 pakt en copy paste doet in zijn copypasta.

Nvidea heeft nu wel wat te bewijzen. De rechter zal dus stap voor stap gaan toetsen of er geen inbreuk is gemaakt op de rechten van deze 3 en zal aan de hand daarvan een uitspraak maken. Mocht Nvidea nou daadwerkelijk zomaar het werk van andere gebruikt hebben, dan is de uitkomst van deze rechtzaak nog het volgen waard.
Ben benieuwd wat het prijskaartje van AI uiteindelijk gaat worden. Nu is het redelijk vrij beschikbaar maar dat komt alleen maar omdat ze (1) hardware donaties ontvangen en (2) gratis (dan wel illegale) bronnen hebben. Dit gaat nog wel wat impact hebben denk ik zo
Gratis, in veel gevallen. Naarmate dat de modellen beter worden (dan vooral op vlak van efficiëntie) en de hardware goedkoper en sneller wordt... Dan kan Jan modaal dit makkelijker gewoon op zijn eigen pc of smartphone draaien. Kijk naar alle talloze modellen vrij en gratis beschikbaar op bv Civitai. Dat zal (hopelijk toch) de toekomst zijn.
Section 1 · Short Title.
This Act may be cited as the “Copyright Royalty and Distribution Reform Act of 2004”.

Sec. 2 · Reference.
Except as otherwise expressly provided, whenever in this Act an amendment or repeal is expressed in terms of an amendment to, or repeal of, a section or other provision, the reference shall be considered to be made to a section or other provision of title 17, United States Code.

* * * * * * *

Sec. 6 · Effective Date and Transition Provisions.2
(a) Effective Date.—This Act and the amendments made by this Act shall take effect 6 months after the date of enactment of this Act, except that the Librarian of Congress shall appoint 1 or more interim Copyright Royalty Judges under section 802(d) of title 17, United States Code, as amended by this Act, within 90 days after such date of enactment to carry out the functions of the Copyright Royalty Judges under title 17, United States Code, to the extent that Copyright Royalty Judges provided for in section 801(a) of title 17, United States Code, as amended by this Act, have not been appointed before the end of that 90-day period.
Met dank aan medetweaker @wow7 om mij in de juiste richting te sturen.

De heren hebben recht op'n vergoeding (maar ik laat me graaag verbeteren door @Arnoud Engelfriet).

We zien hier weer hoe een miljardenbedrijf denkt weg te komen door alle regeltjes aan hun laars te lappen.

Wij (individu) moeten ons altijd (terecht) aan de regeltjes houden, miljardenbedrijven doen alsof ze op'n andere planeet leven en denken dat ze zich niet aan wetten en regeltjes hoeven te houden, dat is hun hele houding. That's NOT OK.

We moeten ze strak in het gareel houden, hielen in de zand, ze mogen hier niet mee wegkomen. Ik hoop dat de heren auteurs een "gezonde" vergoeding krijgen en miljarden bedrijven inzien dat ze zich netjes moeten gedragen. No one's above the law!

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee