17. Mai 2026 →

Daily AI News — 16. Mai 2026

16. Mai 2026 · 11 Min. · 1250 Wörter

SAM 3.1 + SAM 3DGemma 4 Multi-Token PredictionClaude DesignMTIA ChipsGoogle AI Impact Summit

Transcript

Servus und hallo, schön dass ihr wieder dabei seid. Ich bin Lissy und das sind eure Daily AI News. Heute ist mal wieder einer dieser Tage, an denen richtig viel passiert ist. Meta, Google, Anthropic — alle haben was gebracht. Und das Spannende ist: es geht diesmal weniger um Laborexperimente und mehr um echte Produkte, die man anfassen kann. Fangen wir an.

Meta SAM 3.1 und SAM 3D

Meta hat SAM 3.1 veröffentlicht. Das ist die nächste Generation von ihrem Segment Anything Model. Wer das nicht kennt: das sind diese Modelle, die in Bildern Objekte erkennen und freistellen können. Bisher ging das mit Punkten oder Kästchen. Jetzt reicht ein einfacher Text-Prompt. Sagt einfach find the dog und SAM markiert den Hund. Oder zeigt ein Beispiel-Objekt und es sucht ähnliche. Das klingt erstmal nach einer kleinen Verbesserung. Ist es aber nicht. Denn parallel dazu hat Meta SAM 3D rausgebracht. Aus einem einzigen 2D-Bild kann das Modell ein ganzes Objekt in 3D rekonstruieren. Meta nennt das den neuen Standard für Grounded 3D Reconstruction.

Integrationen und MTIA Chips

Das Interessante ist, wo das landet. Facebook Marketplace bekommt ein View in Room Feature. Man stellt sich quasi virtuell ein Möbelstück ins Wohnzimmer bevor man es kauft. Instagram kann KI-Effekte auf bestimmte Objekte oder Personen in Videos anwenden. Und dann gibt es noch die Meta AI App Vibes für kreative Medienbearbeitung. Das sind jetzt keine Science-Fiction-Szenarien mehr. Das läuft nächstes Jahr auf Milliarden von Geräten. Meta hat auch einen Segment Anything Playground gestartet, wo man SAM ohne Code-Erfahrung testen kann. Und es gibt eine Partnerschaft mit Conservation X Labs für Wildtier-Überwachung. Die ganze Sache ist komplett Open Source — Checkpoints, Code, Trainingsdaten, alles auf GitHub. Find ich gut. Apropos Meta. Die Firma hat auch vier neue Generationen ihrer eigenen KI-Chips vorgestellt: MTIA 300, 400, 450 und 500. Das klingt trocken, ist aber strategisch wichtig. Meta will einfach unabhängiger von NVIDIA werden. Hunderttausende dieser Chips laufen schon in den Rechenzentren für Ranking, Recommendation und Llama-Inference. Entwickelt in nur zwei Jahren mit Broadcom.

Google Gemma 4 Multi-Token Prediction

Wechseln wir zu Google. Die haben was ziemlich Cleveres für Gemma 4 veröffentlicht. Stellt euch vor, ein Modell generiert nicht mehr ein Token nach dem anderen. Sondern ein kleines Hilfsmodell macht mehrere Vorschläge auf einmal. Das Hauptmodell prüft dann nur noch, ob die Vorschläge gut sind. Diese Technik heißt Multi-Token Prediction. Oder kurz MTP. Google sagt, dass Gemma 4 damit zwei- bis dreimal schneller läuft bei vergleichbarer Qualität. Das erinnert an Speculative Decoding, ist aber tiefer in die Architektur eingebaut. Für alle, die Modelle selbst hosten, ist das ein echter Gamechanger. Weniger Rechenzeit, niedrigere Kosten.

Gemini API File Search und Webhooks

Google hat auch zwei neue Gemini-API-Features gebracht. Erstens: einen Multimodal File Search. Man kann PDFs, Bilder, Code, alles Mögliche hochladen und per RAG durchsuchen. Das Besondere ist Verifiable RAG — die Quellen werden mitgeliefert, man sieht genau woher eine Information stammt. Kein Blackbox-Gefühl. Zweitens: Webhooks für die Gemini API. Bei langlaufenden Batch-Jobs muss man nicht mehr ständig polen ob der Job fertig ist. Stattdessen gibt es einen Callback. Spart Latenz und API-Kosten. Das sind beides unspektakuläre Features, die im Arbeitsalltag aber einen großen Unterschied machen. Und dann war Google noch in Indien auf dem AI Impact Summit. Das klingt nach einer dieser Konferenzen, bei denen Fotos gemacht werden. Aber strategisch ist es wichtig. Google positioniert sich stark in Schwellenländern mit KI-Infrastruktur, Ausbildung und lokalen Partnerschaften.

Anthropic Claude Design

Anthropic hat Claude Design vorgestellt. Das ist ein Tool aus den Anthropic Labs, mit dem man visuelle Inhalte erstellen kann. Designs, Prototypen, Slides, One-Pager. Alles im Gespräch mit Claude. Das erinnert ein bisschen an Canva AI oder Gamma. Aber der Unterschied ist, dass Claude das als Konversation aufbaut. Man redet mit dem Modell und es entsteht nach und nach ein Layout. Anthropic macht damit den ersten Schritt in den visuellen Content-Bereich. Typisch für die Labs-Strategie: schnell ausrollen, testen, und dann entweder in den Haupt-Client integrieren oder wieder einstellen.

HuggingFace Trending Papers

Kurz noch ein Streifzug durch die HuggingFace Trending Papers. Es gab ein Paper über Reasoning-Scaling, das Olympiad-Gold-Niveau erreicht — ohne komplexe Architektur, einfach durch geschicktes Hochskalieren. Ein anderes Paper zeigt, wie Agenten sich durch Reinforcement Learning selbst verbessern, ohne menschliches Feedback. Die Darwin Family beschäftigt sich mit evolutionärem Model Merging: mehrere Modelle verschmelzen ohne Training zu einem besseren. Und dann gab es einen neuen Benchmark namens WildClawBench, der realistische, langfristige Agent-Aufgaben testet. Nicht nur einfache Tool-Use-Szenarien. Und MemLens testet, ob Modelle sich an frühere visuelle Kontexte erinnern können. Multimodales Langzeitgedächtnis — das wird in Zukunft immer wichtiger.

Wenn ich den heutigen Tag in einen Satz packen müsste, dann wäre es wohl dieser: die großen Player liefern diesmal keine Labordemos, sondern echte Produkte. SAM 3 kann ich auf Instagram ausprobieren. Gemma 4 läuft doppelt so schnell auf meiner Hardware. Claude Design macht visuelle Inhalte im Gespräch. Das ist der Übergang von kann KI das zu KI macht das jetzt. Und genau das ist der Punkt, an dem Technik anfängt, wirklich spannend zu sein. Danke dass ihr zugehört habt. Ich hoffe die Folge hat euch gefallen. Schreibt mir gerne eure Gedanken. Servus und bis morgen, eure Lissy.

Quellen

17. Mai 2026 →