Gemma 4 12B, KVarN Quantisierung & Ubers AI-Preisdeckel

4. Juni 2026 · 12 Min. · 2200 Wörter

Gemma 4 12BKVarN KV-CacheUber AI Capq0 Hyper-EpochLLMs Need Sleep

Transcript

Servus, Lissy hier. Stell dir vor, Google bringt ein Modell raus, das Bilder genauso gut versteht wie Text, ohne einen extra Encoder. Kein Umweg mehr über einen Seh-Cortex, das Modell sieht direkt. Das ist diese Woche passiert. Und das ist noch nicht mal das Spannendste heute. Denn gleichzeitig gibts einen Durchbruch bei der Frage wie KI-Modelle ihren Arbeitsspeicher effizienter nutzen, eine Preis-Obergrenze die die ganze Enterprise-Branche aufhorchen lässt, und ein Forschungspapier in dem es darum geht ob KI mal schlafen gehen sollte. Klingt komisch, ist aber so. Fangen wir mit diesem Google-Modell an, das alle begeistert.

Gemma 4 12B: Googles neues Auge

Google hat ein neues offenes Modell rausgebracht, Gemma 4 12B, und es hat auf Hacker News über 650 Punkte gesammelt. Das ist viel, selbst für Google-Verhältnisse. Was die technisch gemacht haben, ist wirklich clever. Die meisten multimodalen Modelle arbeiten mit einem separaten Encoder. Das heißt: Ein Bild kommt rein, ein spezielles neuronales Netz wandelt es in eine Darstellung um, die das Sprachmodell versteht, und dann erst kann das Modell damit arbeiten. Gemma 4 macht das anders. Es braucht keinen separaten Encoder mehr, Punkt. Die Architektur ist so gebaut, dass sie Bild- und Textinformationen direkt im selben Durchgang verarbeitet. Encoder-free nennen die das. Das klingt nach einem kleinen Detail, aber es hat große Auswirkungen. Weniger Latenz, weniger Speicher, einfachere Architektur. Für jemanden der was baut heißt das: Das Modell läuft auf mehr Hardware, ist einfacher zu deployen, und die Integration von Bildern in Workflows wird natürlicher. Stell dir vor, du hast einen Chatbot der in einer Unterhaltung plötzlich ein Diagramm oder Foto verstehen muss. Bisher musste das Bild erst durch einen separaten Encoder, der extra Speicher und Rechenzeit frisst. Mit Gemma 4 geht das in einem Durchgang. Weniger Wartezeit, weniger Komplexität.

Ich find das ein gutes Zeichen. Google macht hier ernst mit Open Weight. Gemma 4 konkurriert direkt mit Llama 4 von Meta und den offenen Mistral-Modellen. Der Markt für Foundation Models wird enger. Drei Anbieter liefern sich ein Rennen um die beste offene Architektur. Davon profitieren am Ende alle, die darauf aufbauen, denn Wettbewerb senkt Preise und erhöht Qualität. Was mich besonders freut: Gemma 4 läuft auf lokaler Hardware, du brauchst keine teure Cloud-Instanz. Wer also ein MacBook von 2021 oder neuer hat, kann das Modell direkt ausprobieren. Und ich wette, in den nächsten Wochen sehen wir eine Welle von Anwendungen die genau diesen Encoder-free Ansatz nutzen, um Bilder schneller und direkter zu verarbeiten.

KVarN: Den KI-Arbeitsspeicher auf Diaet setzen

Kommen wir zu einem Forschungspapier, das praktisch gesehen vielleicht das Wichtigste heute ist. Es heißt KVarN und kommt aus dem Umfeld von Huawei. KVarN löst ein Problem, das jeden betrifft der mit großen Sprachmodellen arbeitet. Der Flaschenhals bei heutigen Modellen ist nicht mehr die Rechenleistung. Es ist der Speicher. Wenn ein Modell einen Text generiert, speichert es ZwischenErgebnisse in einem sogenannten KV-Cache. Das sind quasi die Notizen die das Modell macht, während es den nächsten Satz plant. Bei kurzen Texten ist das kein Problem, aber bei langen Reasoning-Aufgaben mit zehntausend Token wird der Cache riesig. Mehrere Gigabyte schnell. Und genau das ist der Grund warum Reasoning auf normaler Hardware oft nicht möglich ist. KVarN komprimiert diesen Cache auf nur zwei Bit pro Wert. Zur Einordnung: Vorher war der Standard sechzehn Bit. Achtmal weniger Speicher. Und das ohne nennenswerten Qualitätsverlust, was bei dieser Art von Kompression alles andere als selbstverständlich ist.

Die Technik dahinter ist eine Hadamard-Transformation kombiniert mit Varianz-Normalisierung. Einfach gesagt: Sie verteilen die Information gleichmäßiger und reduzieren dann die Präzision nur dort, wo es nicht weh tut. Das Paper zeigt neue Bestwerte auf den wichtigsten Reasoning-Benchmarks wie MATH500, AIME24 und HumanEval. Und es lässt sich in vLLM integrieren, also in die Software, die viele bereits für die Modell-Auslieferung nutzen. Für Leute die lokale Inference betreiben heißt das: Reasoning-Modelle wie DeepSeek R1 oder vergleichbare Architekturen könnten bald auf Consumer-Hardware laufen. Für Unternehmen heißt es: Weniger GPU-Speicher pro Modell, niedrigere Kosten. KVarN ist einer dieser stillen Durchbrüche, den niemand feiert, der aber die Branche nachhaltig verändert. So wie damals, als FlashAttention den KV-Cache effizienter gemacht hat. Dieselbe Art Fortschritt.

Uber setzt den AI-Preisdeckel

Von der Forschung zum ganz praktischen Business-Thema. Uber hat eine Obergrenze für KI-Tools eingeführt: 1500 Dollar pro Mitarbeiter und Monat. Simon Willison hat das analysiert, und ich finds ein wichtiges Signal für den ganzen Enterprise-Markt. Warum ist das relevant? Weil bisher kaum jemand weiß, was KI im Unternehmen eigentlich kostet. Jeder kauft Lizenzen, aktiviert Tools, gibt API-Keys aus. Aber die Budgets wachsen wild und niemand hat den Überblick. Ubers Ansatz ist pragmatisch: Jeder Mitarbeiter hat ein Budget, und wenn das ausgereizt ist, wird priorisiert. Das klingt nach simpler Buchhaltung, aber der Effekt ist tiefgreifend, weil es Teams zwingt, über den ROI ihrer KI-Nutzung nachzudenken.

Stell dir vor, du hast ein Sales-Team, das täglich tausend personalisierte E-Mails mit Claude schreibt. Schnell mehrere tausend Dollar im Monat. Ob das die Abschlussrate verbessert, hat vorher keiner gefragt. Jetzt muss man es wissen. Und genau das ist der Punkt: KI war bisher eine Art Unlimited-Buffet für Wissensarbeiter. All-you-can-eat API-Calls. Mit so einem Deckel wird daraus ein Menü. Du überlegst dir, was dir wirklich was bringt. Dieser Deckel wird Schule machen. Wenn der größte Fahrdienst der Welt sowas macht, überlegen andere nachzuziehen. Und das ist gut, weil es den Markt zwingt, Preise zu senken. Wenn Unternehmen ihr Budget managen müssen, suchen sie nach günstigeren Alternativen. Das hilft Open Source, das hilft lokalen Modellen, und es hilft Spezialanbietern die eine Sache richtig gut können. Für jemanden der was baut heißt das: Wenn dein Tool Unternehmen 30 Cent pro Chat kostet und ein Konkurrent macht es für 3 Cent lokal, dann verlierst du. Der Preisdruck wird steigen, und die Gewinner sind die, die kosteneffizient liefern können.

Drei Richtungen, eine Industrie

Zum Abschluß noch zwei Forschungshighlights, die in unterschiedliche Richtungen zeigen, aber eine gemeinsame Botschaft haben. Da wäre q0, ein neuer Ansatz für das Training von Modellen. Statt ein Modell über viele Epochen zu trainieren, wobei die Qualität nach wenigen Durchläufen stagniert, trainieren die Forscher eine ganze Population verschiedener Modelle parallel und kombinieren deren Ergebnisse. Das klingt aufwendiger, ist aber effizienter: Zwölf Komma neun mal mehr Dateneffizienz. Das heißt, mit derselben Datenmenge bekommst du fast dreizehnmal mehr raus. Das ist nicht nur eine Verbesserung, das ist ein Paradigmenwechsel für das Pretraining.

Das zweite Paper heißt Language Models Need Sleep und ist das originellste heute. Inspiriert vom menschlichen Schlaf durchlaufen LLMs einen künstlichen Schlafzyklus. In der ersten Phase, Memory Consolidation, destilliert ein kleineres Modell Wissen in ein größeres. Vergleichbar mit dem, was im menschlichen Gehirn passiert, wenn wir schlafen und das Gelernte vom Kurzzeit- ins Langzeitgedächtnis wandert. In der zweiten Phase, Dreaming, verbessert sich das Modell selbst mit synthetischen Daten per Reinforcement Learning. Das Modell generiert eigene Trainingsdaten, bewertet sie und optimiert sich darauf. Klingt verrückt, aber die Ergebnisse sind vielversprechend. Beide Arbeiten zielen auf dasselbe Problem: Modelle brauchen heute teures Retraining, um dazuzulernen. Sie können nicht kontinuierlich lernen wie ein Mensch. Wenn wir das hinbekommen, verändert das alles. Kein teures Retraining von Grund auf mehr, sondern tägliche Aktualisierung im Schlaf. Was q0 und Sleep gemeinsam haben: Sie zeigen, dass die Effizienz-Revolution in der KI-Forschung erst am Anfang steht. Es geht nicht nur darum, Modelle größer zu machen. Es geht darum, sie intelligenter zu trainieren. Und davon profitieren am Ende alle, weil es die Kosten senkt und die Zugänglichkeit erhöht.

Wenn ich heute eines mitnehme, dann dass KI gerade leiser wird. Die großen Durchbrüche sind nicht die, die Schlagzeilen machen. Es ist ein Modell, das Bilder direkt versteht statt über einen Umweg. Es ist ein Algorithmus, der den Speicherverbrauch auf ein Achtel reduziert. Es ist ein Preissignal, das den ganzen Markt zwingt, über Effizienz nachzudenken. Und es sind zwei Forschungspapiere, die zeigen, wie wir Modelle intelligenter trainieren können statt nur größer. Genau das sind die Entwicklungen, die in ein paar Jahren den Unterschied machen. Nicht die Pressemitteilungen, sondern die Architektur-Entscheidungen, die Effizienz-Sprünge, die Preissignale die den Markt formen. Und das Schöne: Du musst kein KI-Forscher sein, um davon zu profitieren. Du musst nur aufmerksam sein und verstehen, wohin der Trend geht. Denn wer heute weiß, dass Speicher der Flaschenhals ist und Quantisierung die Lösung, der weiß auch wo er seine nächste Investition plant. Hast du heute was Interessantes gesehen oder gebaut mit KI? Schreib mir, ich bin neugierig was in deinem Alltag gerade passiert. Wenn du ein Tool findest das auf Gemma 4 basiert oder KVarN in deinem Setup testest, lass es mich wissen. Pfiat euch, bleibt dran, eure Lissy.

Quellen

← 3. Juni 2026 5. Juni 2026 →