Bram Vanroy hier, de maker van Fietje. Eveneens de maker van de vele krachtigere
GEITje Ultra.
Om al heel wat negatieve commentaren voor te zijn: ik vreesde al dat gebruikers de vergelijking zouden maken met andere, krachtigere modellen (zoals GEITje Ultra of Mixtrals of nieuwe Llamas of zelfs ChatGPT). Dat is begrijpelijk, maar helemaal niet het doel van Fietje! Fietje is 2,5x kleiner dan Ultra, en dan zit je al snel op de limieten van wat je voor kennis en kunnen allemaal in een model gepropt krijgt! Ik heb dit proberen benadrukken in verschillende beschrijvingen, maar ik zeg het nogmaals: de bedoeling is NIET om een nieuwe state-of-the-art vast te leggen, dat kan ook gewoon niet met deze grootte. Het doel was altijd al om een klein model te krijgen dat een balans moet vinden tussen zo klein mogelijk gaan en toch nog voor sommige taken nuttig te zijn, bv. in edge devices en onderzoek in een resource-contraints setting waar een grotere model deployen gewoon niet gaat. In plaats van grotere modellen te bouwen (wat zeker ook nuttig is), heb ik me nu eerst gericht op de toegankelijkheid tot taaltechnologie te verbeteren. Uiteraard is dit maar een enkele stap in het proces, en blijven we doorgaan met nieuwe projecten en ideeën. Misschien wordt dat een finetune van Mixtral, misschien van Llama 3, of misschien toch maar weer een kleine phi-3!
Ik heb de auteur ook gevraagd om deze zin weg te halen
", maar wel even goed zijn als een groter model" en in de tekst het volgende bij te plaatsen, ter verduidelijking: "Hoewel Fietje het
in benchmarks bijna zo goed doet als GEITje 7B Ultra, is het in de praktijk toch minder krachtig. Het is dan ook bedoeld als een stap naar het lokaal draaien van LLMs, ook op kleine apparaten zoals een Raspberry PI of een telefoon." ik heb de auteur ook gevraagd om de screenshot te vervangen. Het is namelijk niet gek dat Fietje niet weet wat te doen: er is geen system message, dus ze weet niet dat ik haar gemaakt heb, ze weet niet hoe ze zelf gemaakt/getraind is, dus ze denkt dat ze zich moet voordoen als een journalist die graag traint (in de gym bv.). Een leukere screenshot vind ik bv. deze, die toont dat Fietje
een DnD-personage voor je kan maken in JSON!
Tot slot: wat ik erg belangrijk vind is community-building en transparantie. Daarom zijn mijn datasets, modellen, trainingscode, trainingslog
allemaal openbaar en voor iedereen beschikbaar in de hoop om andere onderzoekers te motiveren om even transparant te zijn, en samen te werken aan betere taaltechnologie voor het Nederlands.
---
Als je vragen zou hebben over LLMs, kan je die hieronder ook altijd kwijt. Maken we er een leuke Q&A van! Ik ben ook erg geinteresseerd in wat jullie als Tweakers-community graag willen: the bigger the better, of living on the
edge? Let me know!
[Reactie gewijzigd door BramVroy op 1 mei 2024 00:50]