Onderzoeker brengt klein Nederlands taalmodel uit gebaseerd op Microsoft Phi

Een Belgische onderzoeker van de KU Leuven heeft Fietje uitgebracht, een Nederlandse variant op Phi 2 van Microsoft. Met 2,8 miljard parameters moet het bruikbaar zijn op weinig krachtige hardware.

Fietje moet innovatie in Nederlandstalige taalmodellen bevorderen en toegang tot Nederlandse taaltechnologie verbeteren, zegt maker Bram Vanroy tegen Tweakers. "De stap om dit soort modellen lokaal op je telefoon te draaien wordt hierdoor kleiner." Vanroy maakte GEITje Ultra, een Nederlandstalig taalmodel geoptimaliseerd voor gebruik als AI-assistent. GEITje Ultra heeft zeven miljard parameters. "Hoewel Fietje het in benchmarks bijna zo goed doet als GEITje 7B Ultra, is het in de praktijk toch minder krachtig. Het is dan ook bedoeld als een stap naar het lokaal draaien van LLM's, ook op kleine apparaten zoals een Raspberry Pi of een telefoon."

Fietje kwam tot stand met data van Wikipedia en CulturaX, zo zegt Vanroy. Daarna volgden instruction tuning en voorkeurstraining. Het kleine model moet een compromis zijn tussen snelheid en kwaliteit, zegt Vanroy. Fietje is te proberen op de HuggingFace-pagina van het project.

Update, woensdag - Het screenshot is vervangen door een nieuw screenshot en er is meer duiding toegevoegd over de benchmarks met een quote en een link.

Lees meer

IT-banen

Reacties (66)

BramVroy
30 april 2024 23:28

Bram Vanroy hier, de maker van Fietje. Eveneens de maker van de vele krachtigere GEITje Ultra.

Om al heel wat negatieve commentaren voor te zijn: ik vreesde al dat gebruikers de vergelijking zouden maken met andere, krachtigere modellen (zoals GEITje Ultra of Mixtrals of nieuwe Llamas of zelfs ChatGPT). Dat is begrijpelijk, maar helemaal niet het doel van Fietje! Fietje is 2,5x kleiner dan Ultra, en dan zit je al snel op de limieten van wat je voor kennis en kunnen allemaal in een model gepropt krijgt! Ik heb dit proberen benadrukken in verschillende beschrijvingen, maar ik zeg het nogmaals: de bedoeling is NIET om een nieuwe state-of-the-art vast te leggen, dat kan ook gewoon niet met deze grootte. Het doel was altijd al om een klein model te krijgen dat een balans moet vinden tussen zo klein mogelijk gaan en toch nog voor sommige taken nuttig te zijn, bv. in edge devices en onderzoek in een resource-contraints setting waar een grotere model deployen gewoon niet gaat. In plaats van grotere modellen te bouwen (wat zeker ook nuttig is), heb ik me nu eerst gericht op de toegankelijkheid tot taaltechnologie te verbeteren. Uiteraard is dit maar een enkele stap in het proces, en blijven we doorgaan met nieuwe projecten en ideeën. Misschien wordt dat een finetune van Mixtral, misschien van Llama 3, of misschien toch maar weer een kleine phi-3!

Ik heb de auteur ook gevraagd om deze zin weg te halen ", maar wel even goed zijn als een groter model" en in de tekst het volgende bij te plaatsen, ter verduidelijking: "Hoewel Fietje het in benchmarks bijna zo goed doet als GEITje 7B Ultra, is het in de praktijk toch minder krachtig. Het is dan ook bedoeld als een stap naar het lokaal draaien van LLMs, ook op kleine apparaten zoals een Raspberry PI of een telefoon." ik heb de auteur ook gevraagd om de screenshot te vervangen. Het is namelijk niet gek dat Fietje niet weet wat te doen: er is geen system message, dus ze weet niet dat ik haar gemaakt heb, ze weet niet hoe ze zelf gemaakt/getraind is, dus ze denkt dat ze zich moet voordoen als een journalist die graag traint (in de gym bv.). Een leukere screenshot vind ik bv. deze, die toont dat Fietje een DnD-personage voor je kan maken in JSON!

Tot slot: wat ik erg belangrijk vind is community-building en transparantie. Daarom zijn mijn datasets, modellen, trainingscode, trainingslog allemaal openbaar en voor iedereen beschikbaar in de hoop om andere onderzoekers te motiveren om even transparant te zijn, en samen te werken aan betere taaltechnologie voor het Nederlands.

---

Als je vragen zou hebben over LLMs, kan je die hieronder ook altijd kwijt. Maken we er een leuke Q&A van! Ik ben ook erg geinteresseerd in wat jullie als Tweakers-community graag willen: the bigger the better, of living on the edge? Let me know!

[Reactie gewijzigd door BramVroy op 1 mei 2024 00:50]

Lees meer

IT-banen

Reacties (66)

Sorteer op:

Weergave:

Tweakers maakt gebruik van cookies

Toestemming beheren

Functioneel en analytisch

Relevantere advertenties

Ingesloten content van derden