Update19.04.2026

SAM 3.1: Schnellere und leichter zugängliche Videodetektion in Echtzeit

Meta-Ai
Meta

SAM 3.1: Schnellere und zugänglichere Videoerkennung und -verfolgung in Echtzeit mit Multiplexing und Global Reasoning

Update 27. März 2026:

In den letzten Monaten hat SAM 3 eine unglaubliche Akzeptanz erfahren. Während dieser Zeit haben wir hinter den Kulissen an Updates gearbeitet, um die Effizienz der Videoverarbeitung zu verbessern. Heute freuen wir uns, SAM 3.1 vorstellen zu können.

Als direkter Ersatz für SAM 3 bietet unser aktualisiertes Modell eine deutliche Steigerung der Videoverarbeitungseffizienz durch die Einführung von Objektmultiplexing, mit dem das Modell bis zu 16 Objekte in einem einzigen Vorwärtsdurchlauf verfolgen kann. Diese Innovation verdoppelt die Verarbeitungsgeschwindigkeit für Videos mit einer mittleren Anzahl von Objekten und erhöht den Durchsatz von 16 auf 32 Bilder pro Sekunde auf einer einzigen H100 GPU. Dadurch ermöglicht SAM 3.1 die Objektverfolgung in komplexen Videos in Echtzeit und reduziert gleichzeitig den Gesamtbedarf an GPU-Ressourcen, so dass Hochleistungsanwendungen auch auf kleinerer, leichter zugänglicher Hardware möglich sind.

Meta Segment Anything Model 3 (SAM 3) Überblick
Meta hat das Segment Anything Model 3 (SAM 3) veröffentlicht, das einheitliche Modell der nächsten Generation für die Erkennung, Segmentierung und Verfolgung von Objekten in Bildern und Videos. Es unterstützt hochflexible Eingabeaufforderungen, darunter:

Textaufforderungen (kurze Substantivphrasen mit offenem Wortschatz, z. B. "gestreifter roter Regenschirm")
Exemplarische Bildaufforderungen
Traditionelle visuelle Eingabeaufforderungen (Punkte, Kästchen, Masken)

Dies behebt eine wesentliche Einschränkung früherer Modelle, indem es die Segmentierung von Konzepten mit Hilfe von Prompts ermöglicht - das Auffinden und Segmentieren aller Instanzen eines Konzepts, auch von seltenen oder nuancierten Konzepten, die nicht in festen Bezeichnungssätzen enthalten sind.

Wichtige Verbesserungen

Zweifacher Leistungszuwachs beim neuen Segment Anything with Concepts (SA-Co) Benchmark für promptable concept segmentation in Bildern und Videos.
Bessere Genauigkeit in überfüllten Szenen und bei interaktiven Aufgaben im Vergleich zu früheren SAM-Modellen und starken Baselines (z. B. OWLv2, Gemini 2.5 Pro).
Schnelle Inferenz: ~30ms pro Bild (sogar mit 100+ Objekten) auf einer H200 GPU; nahezu Echtzeit für Videos mit mehreren Objekten.
SAM 3.1-Update: Einführung von Multiplexing - Verarbeitung aller verfolgten Objekte in einem einzigen Durchgang anstelle von separaten Durchgängen pro Objekt. Dies reduziert redundante Berechnungen, senkt den Speicherverbrauch und verbessert die Effizienz und Genauigkeit, insbesondere in überfüllten oder komplexen Videoszenen.

Innovation bei Daten und Training
Meta hat eine skalierbare hybride Daten-Engine entwickelt, die SAM 3, Llama-basierte KI-Annotatoren und menschliche Gutachter kombiniert. Dadurch wurde die Kommentierung von negativen Aufforderungen um das 5-fache beschleunigt und die Erstellung eines umfangreichen Trainingsdatensatzes mit über 4 Millionen einzigartigen Konzepten ermöglicht.

Weitere Veröffentlichungen

SAM 3D: **Open-Source-Modelle und -Daten für die 3D-Rekonstruktion von Objekten/Szenen und die Schätzung der menschlichen Pose/Form aus einem einzigen Bild.
Segment Anything Playground: Eine benutzerfreundliche Webplattform, auf der jeder (ohne Programmierkenntnisse) mit SAM 3 experimentieren kann, um kreative Bearbeitungen, Anmerkungen und Medienmodifikationen vorzunehmen (z. B. Gesichter verpixeln, Effekte hinzufügen, Objekte beleuchten).
SA-Co Benchmark-Datensatz für die Bewertung durch die Gemeinschaft und die Forschung.
Feinabstimmung des Codes und der Ansätze, um die Benutzer bei der Anpassung von SAM 3 an bestimmte Bereiche zu unterstützen.

Real-World-Anwendungen

Facebook Marktplatz: Die Funktion "View in Room" nutzt SAM 3/SAM 3D, um Nutzern die Möglichkeit zu geben, Möbel und Dekoration in ihrem eigenen Raum zu visualisieren.
Creator Tools: Neue Effekte für die Edits-App von Instagram (dynamische Effekte auf bestimmte Personen/Objekte mit einem Fingertipp), die Meta AI-App (Vibes) und meta.ai.
Wissenschaft und Naturschutz: Neue öffentliche Datensätze für Wildtiere (SA-FARI für Kamerafallen, FathomNet für Unterwasserbilder) in Zusammenarbeit mit Conservation X Labs und anderen.

Zukunftsperspektiven
SAM 3 erbringt gute Leistungen bei kurzen Eingabeaufforderungen und allgemeinen Szenarien, kann aber durch Feinabstimmung für feinkörnige domänenspezifische Konzepte (z. B. medizinische Begriffe) verbessert werden. Auch bei der Handhabung sehr komplexer/langer Eingabeaufforderungen und einer effizienteren Verfolgung von Videos mit mehreren Objekten und gemeinsamem Kontext ist noch Raum für Verbesserungen.
Insgesamt macht SAM 3 fortgeschrittenes visuelles Verstehen zugänglicher und leistungsfähiger, mit offenen Gewichten, Code, Daten und einer Spielwiese für umfassende Experimente. Es setzt Metas Bestreben fort, Kreative, Forscher und Entwickler zu unterstützen und gleichzeitig praktische Anwendungen im E-Commerce, der Erstellung von Inhalten und der wissenschaftlichen Überwachung zu ermöglichen.
Möchten Sie eine kürzere Version, nur Aufzählungspunkte oder eine Konzentration auf bestimmte Teile (z. B. technische Verbesserungen oder Anwendungen)?