'Reddit sluit licentiedeal met AI-gigant voor trainen AI-modellen'

Reddit heeft een licentiedeal gesloten met een 'groot AI-bedrijf', ten behoeve van het trainen van AI-modellen. Dat meldt persagentschap Bloomberg. Het is vooralsnog niet bekend om welk bedrijf het gaat.

De licentiedeal zou betekenen dat de inhoud van de door gebruikers gegenereerde inhoud op Reddit zal worden gebruikt om de AI-modellen van een niet nader genoemd bedrijf te trainen, meldt Bloomberg op basis van ingewijden. Het zou gaan om een overeenkomst ter waarde van omgerekend ruim 55,5 miljoen euro op jaarbasis.

Naar verluidt zou OpenAI ter vergelijking omgerekend 4,6 miljoen euro per jaar betalen aan nieuwsuitgevers om hun gegevens te mogen gebruiken als trainingsdata. Ook Apple zou van plan zijn om meerjarige deals te sluiten met grote nieuwsbedrijven. Volgens The New York Times kunnen deze deals omgerekend minstens 46 miljoen euro waard zijn.

In oktober van vorig jaar zou Reddit volgens The Washington Post nog gedreigd hebben om de crawlers van zoekmachines Google en Bing te blokkeren op het usergeneratedplatform, als het niet lukt om deals te sluiten met AI-bedrijven om voor gegevens te betalen.

Hoewel de omzet van Reddit eind 2023 met twintig procent steeg, was dat nog altijd 200 miljoen dollar minder dan de doelstelling van 1 miljard dollar dat het eerder had gesteld. Reddit kondigde in 2021 een beursgang aan. Naar verluidt zal dit in maart van dit jaar plaatsvinden, waarbij het bedrijf mikt op een waardering van ongeveer 5 miljard dollar.

Door Sabine Schults

Redacteur

18-02-2024 • 09:59

66 Linkedin Whatsapp

Reacties (66)

66
64
37
0
0
15
Wijzig sortering
Zou dit het AI bedrijf van Musk zijn? Zou wel passen binnen het model van Grok.
Is dat een "AI gigant" dan? Ik denk dat OpenAI logischer is, gezien de bewoording. Sam Altman was ooit zelfs interim CEO bij Reddit dus die zullen ongetwijfeld banden hebben.

[Reactie gewijzigd door Wolfos op 18 februari 2024 10:12]

Ik vermoed zelf dat het eerder om Apple gaat, want ik denk niet dat het OpenAI ook maar een beetje interesseert als iedereen te weten zou krijgen dat zij achter deze deal zitten; Iedereen verdenkt hen toch meteen (zoals ook hier), en daarnaast is het ook geen geheim dat zij veel data nodig hebben.

Aan de andere kant heeft Apple de jaatste paar jaar meer geinvesteerd in AI startups etc. dan menig ander big tech bedrijf, maar hier hoor je verder niet echt iets over. Die geheimzinnigheid is dan ook typisch het Apple-DNA, en zou je dus mogelijk zelfs als een soort vingerafdruk kunnen beschouwen als het om dit soort dealtjes gaat. Ook hebben de andere techbedrijven dit soort data niet echt nodig: Meta en Xwitter hebben bakken met data, Google is ongeveer de definitie van data, en ook Microsoft heeft (los van hun OpenAI investeringen) meer dan genoeg data met o.a. Bing.

Verder heeft Apple ook nog niet echt iets gedaan met al die investeringen. Sure, ze doen dingen zoals on-device foto objectherkenning etc., maar dit zit er al een tijdje in. Er zijn dan inmiddels dus ook rumors dat iOS 18 de grootste update ooit aan het OS zal zijn, met een enorme focus op AI (en dus ook Siri) in het algemeen.

Ook waren er al referenties naar OpenAI's API in de iOS 17.4 beta als het om Siri gaat. Echter lijk mij dit meer een soort proof-of-concept, gezien het mij sterk lijkt dat moderne dag Apple met hun "on-device everything" privacybeeld zich met een productieversie van iOS direct afhankelijk zou maken van OpenAI, en vermoed ik dus ook eerder dat dit een test is, en wanneer de resultaten van zo'n test positief zouden worden ervaren, zou het mij dan ook niets verbazen als Apple nu een eigen LLM wil trainen voor o.a. Siri. Echter hebben ze hier natuurlijk enorm veel (vooral goed gelabelde) data voor nodig, wat ze met hun sterke focus op privacy etc. niet echt hebben.

Los van bijv. een Wikipedia, zou Reddit ze hier erg goed mee kunnen helpen, gezien content daar by design al vrij goed gecategoriseerd en gemodereerd is in de vorm van "subreddits", post "flair" labels, gekoppelde comments, en bijvoorbeeld de upvote/downvotes comment om sentiment/populariteit mee te bepalen. Met al dat soort data, zou het ineens een stuk toegangkelijker worden voor Apple om content te filteren op hun voorkeuren, en hier vervolgens een vrij goede LLM op te trainen

[Reactie gewijzigd door Arckedo op 18 februari 2024 22:36]

Ik vermoed zelf dat het eerder om Apple gaat, want ik denk niet dat het OpenAI ook maar een beetje interesseert als iedereen te weten zou krijgen dat zij achter deze deal zitten; Iedereen verdenkt hen toch meteen (zoals ook hier), en daarnaast is het ook geen geheim dat zij veel data nodig hebben.
Precies om deze reden vind ik eigenlijk dat OpenAI zich zou moeten splitsen naar een losse non-profit en commerciële organisatie, in plaats van dat die twee met elkaar verwoven zitten. Ik zou het helemaal prima vinden als de non-profit organisatie OpenAI voor onderzoeksdoeleinden mijn data gebruikt, maar ik vind het niet zo fijn dat diezelfde data door de commerciële organisatie waar ChatGPT onder beschikbaar is wordt blootgesteld.
Goed punt, en daar dacht ik niet eens aan, ondanks dat Apple wel meer dergelijke licensing deals heeft gesloten om hun models te kunnen trainen op content.

Er zullen vast meer bedrijven zijn die betalen om hun models te kunnen trainen op content, maar Apple is zeker wel één van de meer gigantische.
Lijkt me stug. OpenAI heeft hem ontslagen vanwege het profit vs non-profit aspect.
Zou wel heel raar zijn als ze nu opeens een paar maanden later een deal maken wat ze 55miljoen per jaar extra gaat kosten zonder winst oogmerk.

Open-AI is juist de eerste afvaller.
Als ik zou gokken denk ik dat het MS betreft.
Lijkt eerder op OpenAI, aangezien zij hun modellen nu commerciëler in willen zetten. Paar oud klanten van mij zijn ook in gesprek met OpenAI om hun eigen modellen te trainen.
Het is wel netjes dat ze gaan betalen voor die trainingsdata.

Google heeft trouwens een oneerlijk voordeel vergeleken met andere bedrijven omdat ze alle emails en browsegeschiedenis en ook communicatie metadata van hun gebruikers mogen gebruiken om hun modellen te trainen. De meeste Google gebruikers zijn zich hier niet eens van bewust, laat staan Google fans.
Bron: https://9to5google.com/20...-policy-ai-training-data/

Andere bedrijven moeten dus zoals in het artikel genoemd, betalen voor data die lang niet zo invasief is, terwijl google meer dan de helft van de wereld heeft die het gratis aanlevert.

Edit: voor de duidelijkheid heb ik een woord dik gemaakt. Iedereen denkt dat ik beweer dat Google dit doet, nergens claim ik dit. Ik kan er niets aan doen dat mensen niet lezen, mijn post of de Google Android voorwaarden

[Reactie gewijzigd door OLED op 18 februari 2024 19:10]

Is het een oneerlijk voordeel of mijn je het ook gewoon een gevolg van van de diensten die een bedrijf aanlevert en dat dat toevallig goed samen te combineren is?
Jouw statement van 'ja het combineert gewoon toevallig goed dus...' is een antwoord wat elk bedrijf altijd zou kunnen zeggen, 'ja het komt gewoon zo uit'. Als je iets altijd als antwoord kunt geven mis je nuance of informatie. Het is in dit geval te simplistisch en negeert (met reden of door nalatigheid) de complexiteit van de kwestie. Het is waar dat Google's dataverzameling een gevolg is van de diensten die het bedrijf aanbiedt. Echter, de onvrijwillige aard van de datadonatie, machtsongelijkheid en ethische bezwaren maken het oneerlijk om te stellen dat Google's voordeel simpelweg een gevolg is van de diensten die het bedrijf aanbiedt.
Er is natuurlijk een reden dat zulke bedrijven hun diensten gratis aanbied, wel, zie hier waarom.

informatie is het ultieme waardevolle in het universum.
Onvrijwillige aard? Wie dwingt jou gmail te gebruiken? :?
Ik doe prima zonder.
Google in principe. Voor elke Android telefoon ben je bijna verplicht een account te hebben om toegang te krijgen tot vele functies. Voor velen een reden om dan maar gewoon gmail te gebruiken. Niet dat het hoeft natuurlijk, puur toegang tot play store kan voor velen al genoeg zijn.
Je kan natuurlijk ook geen android gebruiken. Het is wel jammer dat de enige echte andere optie op dit moment apple is. Persoonlijk heb ik niks tegen apple maar het wel de duopoly
het is een bekend feit dat de voorwaarden waar iedereen een vinkje onder zet zonder na te denken (behalve dan tweakers) wel wettelijk geldig zijn, maar toch ook redelijk in strijd met basic human rights zoals privacy, en zou je niet google willen gebruiken maar een andere dienst, dan is 9/10 net zo data hongerig en heeft net zulke voorwaarden.

het is voor de gewone mensen eigenlijk niet haalbaar om het internet op te gaan zonder al te veel footprints , en het wordt steeds lastiger om zaken en bugerzaken te doen zonder een internet (laat staan vrijetijdsbestedingen maar daar is een grote keus factor aanwezig, al zal een jongetje van 8 niet snel meer geen games spelen in westerse landen, er is zeker een grote groepsdruk om bepaalde apps te gebruiken)

dus de vraag wordt: moeten we deze er in gelobbyde grondrechten schending door laten gaan, en dit soort bedrijven nog meer macht geven door ze exclusief de beste A.I. te laten trainen? of moet er iets aan gebeuren? is het uberhaupt realistisch dat landen of grote groepen mensen samen hier nog iets aan kunnen doen of is het al te ver gevordert?

als er niets aan gedaan wordt hoe zal dit zich verder ontwikkelen in de toekomst?
als ik de toekomst inkijk zie ik helaas scenarios zoals corporate controlled city states en andere dingen uit jaren 80 sci-fi films en boeken...
Het is bekend dat het statement "there is no such thing as a free lunch" langer bestaat dan email. Als je dan gratis email krijgt dan mag je slim genoeg geacht worden om te bedenken dat je op een andere manier betaalt. En volgens mij ben ik zeker niet de enige die betaalt voor zijn email. Bij een bedrijf dat dan ook vastgelegd heeft dat ze de inhoud van mijn mail niet door zullen verkopen of anderszins te gelde proberen te maken. Maar betalen voor iets wat toch echt geld kost lijkt nog steeds bij email een volslagen idiote gedachte te zijn.
ook als je er voor betaald wordt er informatie geharvest helaas, de voorwaarden zijn dan niet significant anders.
Je bedoelt dat bijvoorbeeld data in een protonaccount toch geharvest wordt? Zelf zeggen ze: " Our first and only obligation is always to the Proton community, not advertisers or other third parties. We do not compromise your trust by selling your data and never will. " https://proton.me/about
ik bedoel meer wat de meeste normale mensen gebruiken, dus paid google workspaces accounts, linkedin premium, microsoft windows, etc.

proton is iets dat alleen tweakers kennen, of weten waarom ze het zouden moeten gebruiken

P.S. zelfs Github Co-Pilot, is betaald, handig, maar harvest en voelt een beetje dystopian

[Reactie gewijzigd door Artimunor op 19 februari 2024 13:49]

Ha, ok, omdat ik voor proton betaal, ging ik er van uit dat als je voor een mailservice betaalt, dat men dan per definitie je data niet doorverkoopt (ez krijgen al geld voor de geleverde dienst tenslotte). Maar dat is waarschijnlijk naief van mij :(.
proton is een van de best privacy vriendelijk services "out there" ja, goede keuze
Dus als jij vind dat het correct is om te zeggen dat wanneer: "bedrijf X heeft een dienst. Dan komt er technologie wat perfect gecombineerd kan worden alsof het er voor gemaakt is" oneerlijk is.?

Iets kan oneerlijk aanvoelen voor je maar dat houd niet in dat het dat ook objectief is. En zoals al genoemd, er is geen onvrijwillige aard bij het verzamelen van data door Google. Niemand dwingt jou om hun diensten te gebruiken
Het is wel netjes dat ze gaan betalen voor die trainingsdata.
Wat minder netjes is dat de makers van de content daar niet voor worden vergoed en de "if you're not paying, you're the product" en "not your storage, not your data" principes vaak de enige zijn die mogelijk zijn bij dit soort platformen.
Dat is toch niet anders dan met bijv. advertenties en het verkopen van data voor andere doeleinden van zulke platforms?

Reddit is nooit een non-profit geweest. Als je geld wilt verdienen aan je content moet je een ander platform gebruiken.

Ik maak er gretig gebruik van. Liever dit dan weer een subscription. Idem voor Tweakers.net, hier bleef ik ook liever bij gratis content met adds en heb ik nooit voor Tweakers plus betaald toen dat een ding was.
Dat is toch niet anders dan met bijv. advertenties en het verkopen van data voor andere doeleinden van zulke platforms?
true, met dat verschil dat voor advertenties doelgroepen worden aangeboden en geen user-generated content, maar ook voor die andere doelen zou er nog wel wat mogen wijzigen ivm consent, zonder dat je voor een blok wordt gesteld, het zogenaamde "use it or loose it" of "our way or the high way".
Als je dat wilt moet je het consequent doorvoeren: dan moeten gebruikers gaan betalen voor de door (in dit geval) Reddit geleverde dienst. Wat op zich helemaal niet vreemd is, ware het niet dat we het volstrekt normaal zijn gaan vinden om allerlei gratis services te krijgen en dan boos worden als de aanbieders een ander business model moeten gaan verzinnen om die services te kunnen aanbieden.
meeste van die diensten worden eerst met venture capital opgestart en pas als ze een userbase hebben en het gratis geld op is gaan ze een businessmodel ontwikkelen. Als facebook of google waren gestart met een subscription choice dan waren ze nooit zo groot geworden, want het is pas eens ze een kritische hoeveelheid data verzameld hadden van hun gebruikers dat ze hun dataset konden beginnen ten gelde maken.
In de link die je meestuurt wordt alleen gerept over "publicly available data". Dat zijn dus zeker geen e-mails.

Wat niet wil zeggen dat dat ergens anders in de voorwaarden misschien wel wordt vermeld. Ik gebruik geen Gmail (meer), ik heb die dus ook niet meer gelezen.
LOL, ze zouden wel gek zijn om een AI te laten leren van emails, voor je het weet kun je de persoonlijke meningen van Rutte opvragen bij de chathulp van Ikea. Veel te gevoelig om zulke data in je trainingen op te nemen.

Gelukkig zeggen ze dus ook nergens dat ze dit doen.
Dat doen ze dus niet je bron toont dit nergens aan.
Wacht eens even. Dat het in hun privacyverklaring zou staan betekent niet dat het ook mag. Het betekent slechts dat gebruikers vanaf x moment worden geïnformeerd, een van de verplichtingen waaraan Google moet voldoen. Google zal haar gerechtvaardigd belang om dit te doen natuurlijk prachtig onderbouwen. Betekent nog niet dat dit ook rechtmatig is ;).
Google weet echter dat Google om die eventuele boetes moet lachen, en dat de fanbase damage control zal doen op websites zoals deze :)
Dat is een ander verhaal.
het gaat bij google om publiek beschikbare data, dus niet je prive mails.
Kortom, Reddit verkoopt iets wat eigenlijk niet van hen is. Ik vind dit helemaal geen goede ontwikkeling. Wat mij betreft worden dit soort praktijken dan ook per direct verboden. Het interesseert me ook helemaal niets wat Reddit in zijn algemene voorwaarden hierover hebben opgenomen. Deze voorwaarden zijn niet voortgekomen uit overleg in een gelijkwaardige positie, dus mojns inziens niets waard en bovendien ook iets wat voortvloeit uit consequent achterlopende wet en regelgeving. Hier heeft nooit een fatsoenlijk publiek debat over plaats gevonden, dus sprake van ondubbelzinnige, vrijwillige toezegging kan geen sprake zijn.
Of de voorwaarden jou wel of niet interesseren maakt voor Reddit niets uit. Door een account aan te maken ben je er toch echt mee akkoord gegaan.
Regel 3 uit hun content policy is respect voor privacy. Regel 4 dat abusive content niet zomaar acceptabel is. Regel 5 dat gebruikere zich niet mogen voordoen als anderen. Regel 7 dat illegaal handelen niet mag. Reddit toont daarmee aan bewust te zijn dat de content om meerdere zwaarwegende redenen niet zomaar te vertrouwen is. En men kan de verantwoordelijkheid daarvoor niet even afschuiven op de gebruikers alsof ze er ondertussen er hoe dan ook maar gebruik van kunnen laten maken voor een training. Reddit hoort dus op zijn minst zeker genoeg te zijn dat iedere post die ze verwerken aan die eisen voldoet. Ik zie ze dat niet kunnen doen zonder dat men vooraf per post gecontroleerd heeft. En een opt-out lijkt me geen redelijke benadering, juist omdat men de verantwoordelijkheid niet zomaar kan afschuiven tot het tegendeel blijkt. Ook zie ik geen duidelijke houding dat gebruikers de trainingset kunnen terugdraaien als de gebruiker verantwoordelijkheid neemt na het publiceren van een post. Dus reddit heeft hier eerder heel wat uit te leggen dan dat de voorwaarden zomaar voldoende zijn.
Juridisch gezien mag dat inderdaad wellicht helemaal kloppen, maar daar waar wet en regelgeving zo overduidelijk achter loopt zoals in dit soort zaken, kan ik de juridische realiteit totaal niet serieus nemen. Ik hecht er 0,0 waarde aan en beoordeel het dan ook meer in morele zin. Dus nogmaals van een werkelijk akkoord kan geen sprake zijn. Ik zie het dus gewoon als schaamteloze machtsmisbruik en is Reddit, zoals al verwacht nog verder in aanzien gedaald als ze al waren. Dat dat hen ook 0,0 interesseert weet ik ook wel.
Het is van Reddit. Reddit is een bedrijf, geen vereniging. Er is geen inspraak of publiek debat nodig. Ik wil niet dat ze het verkopen omdat het de AI die het gaat gebruiken, direct nutteloos maakt. Maar ze hebben al het recht om dat te doen.

Hierin spreek je jezelf tegen:

"Het interesseert me ook helemaal niets wat Reddit in zijn algemene voorwaarden hierover hebben opgenomen"

"dus sprake van ondubbelzinnige, vrijwillige toezegging kan geen sprake zijn."

Er is ondubbelzinnige vrijwillige toezegging gedaan door akkoord te gaan met de algemene voorwaarden van het bedrijf.
Ik spreek mijzelf juist niet tegen. Ik verzet mij duidelijk tegen de juridische werkelijkheid, een gecreëerde werkelijkheid waar ik niet om geef. Ik geef ook aan waarom. Er is mijns inziens een groot verschil tussen juridisch recht en moreel recht.

Gezien het formaat van Reddit ben ik van mening dat er van echte vrijwilligheid geen sprake is. Gelukkig is het nog niet zo erg als Facebook of X, maar er zijn zat organisaties die Reddit gebruiken voor bijvoorbeeld het vergaren van feedback. Wil jij dus feedback willen geven, dan moet jij akkoord gaan met de voorwaarden zoals die door Reddit bepaald worden. Dan kan je natuurlijk zeggen dat is niet nodig, geef gewoon geen feedback, maar dat zie ik gezien het formaat en regelmatig gebrek aan een geschikte alternatief niet altijd als reële optie. Daar zit volgens mij dan ook een morele verplichting voor Reddit om goed om te gaan met de macht die zij als platform hebben. Dat is dus niet door eenzijdig voorwaarden op te leggen.

Ook over de ondubbelzinnigheid valt te twisten, want hoe hoog is het percentage gebruikers die de algemene voorwaarden daadwerkelijk leest? Als ze al de moeite nemen begrijpen ze het dan ook wel? Kan je van ondubbelzinnige toestemming spreken op het moment dat de voorwaarden voor wat voor reden dan ook niet duidelijk zijn? Ik denk het niet.

Reddit mag misschien vinden dat er geen inspraak of publiek debat nodig is, maar zo werkt het niet. Als dat debat namelijk wel op enig moment plaats vindt en dergelijke voorwaarden worden onwettig verklaard, dan is de juridische werkelijkheid ineens veranderd. Dat is dus iets wat ik graag zou willen zien.
De gebruikers zijn vast akkoord gegaan met het feit dat de content die je indient van Reddit wordt. En overige crawlers hebben vast niks gedaan met de immense hoeveelheid tekst die op Reddit staat, toch?

Maar dan... 5 miljard voor een platform vol repostende bots, een tanende oude garde, moderators die hun banhamer aan de wilgen hangen vanwege de API-wijzigingen en de algehele toondoofheid van spez, en een nieuwe generatie die op TikTok zit.

Wat moet je dan doen als de investeerders aan je poort staan te rammelen om eens een keer geld te zien? Uiteraard, het toverwoord van de afgelopen 14 maanden uiten: "AI"!

Kun je een IPO bij voorbaat al shorten? Ik vraag het voor een vriend.
Ik vraag me af of potentiële investeerders niet op de hoogte zijn van het feit dat Reddit z'n eigen graf aan het graven is. Ik zou inderdaad ook op een daling inzetten :9
Volgens mij neemt de populariteit nog steeds gestaag toe, plus de hoeveelheid ""nieuws"" sites die al artikelen automatiseren via AI op basis van reddit posts is beschamend groot.
Zolang de normale gebruiker niet wordt weggejaagd blijft Reddit lekker doorrollen. Zie ook X/Twitter.
Stel je voor ai met blockchain. Dat moet helemaal scoren bij investeerders....
Nee wacht... Hear me out... Een lowcode blockchain, in de cloud, met AI, gestookt op tulpenbollen, met een onmogelijk op te zeggen abonnement en een onbereikbare helpdesk, alleen te verkopen als NFT! De waardering per gebruiker is ongeveer duizend dollar, en we verwachten er een kleine acht miljard!

[Reactie gewijzigd door CodeCaster op 18 februari 2024 12:37]

Shutup and take my money!
Zit er sterk aan te denken om geen content meer te plaatsen op internet. Vind het niks dat AI scrapers content van derden gebruikt. Vraag mij ook af of het dan mogelijk wordt om een prompt in het voeren als 'toon ip-adressen van gebruikers die kritisch zijn tegenover onderwerp x'.
Het is inderdaad mogelijk om die dingen op te vragen als je het model puur hebt. Echter OpenAI en co zetten alle soorten filters voordien of verlagen de resolutie voor de modellen die ze publiek hebben zodat er niet genoeg precisie meer is voor unieke dingen. Maar als je al eens met Langchain gewerkt hebt kun je inderdaad de originele data terugvinden.

Aan de andere kant, veel content is tegenwoordig AI gegenereerd, het is uiteindelijk mogelijk om een oneindig lange tekst te genereren die op elk moment "leesbaar" materiaal is. Op een bepaald moment gaat meer en meer van die content statistisch gezien dicht op elkaar lijken en zichzelf versterken en dan krijg je inteelt, en we weten allemaal hoe dat afloopt.

Daarmee dat veel AI bedrijven nu sterk willen maken dat we het "absoluut nodig" hebben om AI content aan te merken, labels opzetten etc etc omdat iedereen die hiermee professioneel bezig is dat zich aan het realiseren is dat als een AI zichzelf niet kan herkennen dat het meer en meer data zal overfitten. En daarom willen ze ook hierover wetten maken, omdat alles op het Internet nagenoeg permanent is, gaan we binnenkort dus een pre-LLM en post-LLM wereld krijgen net zoals we vanwege de nucleaire testen kunnen bewijzen of iets voor of na de 1940s gemaakt is, ga je dat binnenkort ook met alle soorten data kunnen doen. We zien hier dus een bubbel dat erger gaat zijn dan de dotcom bubbel eenmaal alles in elkaar stort.

[Reactie gewijzigd door Guru Evi op 18 februari 2024 18:04]

Ik gok dat dit dan ook invloed zal hebben op kunst, tekeningen, art die mensen posten en niet alleen tekst.

Hoop dat dit toch wel weer wat aandacht gaat krijgen want het is heel zorgelijk, de reactie lijkt nu nog erg beperkt te blijven
Reddit werkt mee aan z'n eigen ondergang. De data komt terug op het eigen forum in de vorm van reddit-posts met lage kwaliteit. Die posts komen weer in de trainingsdata; en de hele boel wordt een grote incentieuze data-brei.

De menselijke gebruikers trekken ondertussen weg door dit proces van enshittification.
Lijkt me best een uitdaging om van een forum de feiten eruit te halen. Er zijn zat goede subs en users, maar hoe ga je de slechte (minder betrouwbare) eruit halen?

Duimpjes omhoog betekent niet gelijk dat het een 'goed' of 'juist' antwoord is.
Mee eens. Er zijn ook bekende grote subs. reacties die je niet als trainingsmateriaal wilt gebruiken voor AI. Zoals berichten onder nieuwsartikelen met een racistische inhoud of de grote hoeveelheid echo bubbels met reacties om anderen te beïnvloeden zoals wallstreetbets en fitness subs.
Dat is echt de laatste plek die ik zou gebruiken als trainings model. Sterker nog, als ik een AI bedrijf zou hebben, zou ik die website direct blokkeren om te scrapen. De mentale inrichting van het internet.
Welke subreddit zal nu de handschoenen oppakken en proberen fake data te creeren om het model te beinvloeden :+
Doet me denken aan dat de WoW-subreddit een AI crawler triggerde. :+

Waarom zit men hier dit te bestempelen als niet relevant? Dit zijn toch dezelfde onderwerpen?

[Reactie gewijzigd door Chefd op 18 februari 2024 12:05]

Het al dan niet expres genereren van garbagedata om scrapers te fucken is enorm relevant voor het onderwerp van dit artikel, de 6x0 die je reactie kreeg is volledig onterecht.

Er zijn een paar (power)mods die praktisch elke reactie een 0 vinden, valt me al weken op, en in de betreffende topics houden ze elkaar de handen boven het hoofd omdat dit "correct" modereren is. Misschien zijn ze depressief, misschien voelen ze zich niet gewaardeerd, misschien denken ze dat ze lekker bezig zijn, wie zal het weten.

En commentaar op de moderatie hoort niet op de frontpage dus kom maar op met de -1's.

[Reactie gewijzigd door CodeCaster op 18 februari 2024 13:10]

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee