Der „OSWorld-Verified-Test“, den ALLE Büro- und Bildschirmarbeiter jetzt kennen sollten!

(Deutschland, Europa und die Welt)

Der OSWorld-Verified-Test (entwickelt vom XLANG Lab) ist eine der weltweit anspruchsvollsten und wichtigsten Testumgebungen (Benchmarks) zur Bewertung von KI-Agenten, die eigenständig Computer bedienen können.

Während klassische KI-Tests meist nur Text- oder Programmierfähigkeiten prüfen, müssen die Agenten bei OSWorld komplexe, praxisnahe Aufgaben in echten Betriebssystemumgebungen (Ubuntu, Windows, macOS) lösen – genau wie ein menschlicher Nutzer über Mausbewegungen, Klicks, Tastatureingaben und visuelle Auswertung des Bildschirms.

Hier sind die wichtigsten technischen Aspekte, Hintergründe und Entwicklungen zu diesem Benchmark:

1. Die Entstehung und das „Verified“-Upgrade

Der ursprüngliche OSWorld-Benchmark wurde Anfang 2024 veröffentlicht und umfasst 369 reale Aufgaben aus dem Computeralltag (z. B. das Erstellen von Tabellen in LibreOffice, das Buchen von Flügen im Browser oder das Installieren von Software über das Terminal).

Da sich das Web und Softwareoberflächen jedoch ständig verändern (z. B. durch neue CAPTCHAs oder Layout-Änderungen auf Websites), kam es bei der automatischen Auswertung der KI-Ergebnisse anfangs zu Ungenauigkeiten. Im Juli 2025 wurde daher die umfassend überarbeitete Version OSWorld-Verified gestartet:

Fehlerkorrektur: Über 300 Schwachstellen, unklare Aufgabenstellungen und veraltete Weblinks wurden manuell korrigiert.
Infrastruktur-Boost: Der Test wurde von lokalen virtuellen Maschinen (Docker/VMware) auf hocheffiziente AWS-Cloud-Instanzen umgestellt. Dadurch lässt sich die Testdauer durch massive Parallelisierung von mehreren Tagen auf unter eine Stunde verkürzen.
Präzisere Bewertungs-Skripte: Um „falsch negative“ Ergebnisse zu vermeiden, wurden die Erfolgskriterien flexibler gestaltet (wenn eine Aufgabe auf zwei unterschiedlichen, aber korrekten Wegen gelöst werden kann, bewertet das System nun beide als Erfolg).

2. Die Erweiterung: OSWorld-MCP

Eine bedeutende methodische Weiterentwicklung stellt OSWorld-MCP (Model Context Protocol) dar. Dieser Testzweig berücksichtigt, dass moderne KI-Agenten nicht nur rein visuell über die grafische Oberfläche (GUI) agieren, sondern auch direkt standardisierte Programmierschnittstellen (APIs) ansteuern können.

Über eine automatisierte Code-Generierungs-Pipeline wurden 158 validierte MCP-Tools für sieben Standardanwendungen integriert.
Damit wird gemessen, wie geschickt eine KI zwischen der visuellen Mausbedienung und der direkten, oft viel effizienteren Nutzung von Tools (z. B. CLI-Befehlen oder Datei-Skripten) abwägen kann.
Zur Messung wurden zwei neue Kennzahlen eingeführt: die Tool Invocation Rate (TIR) (wie oft nutzt die KI Werkzeuge) und die Average Completion Steps (ACS) (wie viele Schritte benötigt sie im Schnitt bis ans Ziel).

3. Aktueller Leistungsstand (Leaderboard 2026)

Der Benchmark gilt als extrem harter Prüfstein, da er von den Modellen ein tiefes Verständnis von Kontext, räumlicher Orientierung auf dem Bildschirm („GUI Grounding“) und logischer Planung verlangt.

Ein menschlicher Durchschnittsnutzer (getestet mit College-Studenten) erreicht auf diesem Benchmark eine Erfolgsquote von rund 72,36 %. Die KI-Modelle haben in den letzten Monaten jedoch extrem aufgeholt und diese Marke teilweise sogar überschritten:

Spitzenreiter (Stand Anfang 2026): Spezialisierte Systeme wie der UiPath Screen Agent (angetrieben von Modellen wie Claude 4.5 Opus) oder dedizierte Frameworks wie OSAgent von AGI Research führen das Feld an und erzielen Erfolgsquoten im Bereich von 72 % bis über 76 %.
Vergleich zu Standard-Modellen: Reine Sprach- und Vision-Modelle ohne spezialisierte Agenten-Infrastruktur schneiden meist deutlich schlechter ab, da sie sich ohne kontinuierliche Selbstkorrektur-Schleifen schnell in komplexen Klickpfaden verlieren.

4. Testkategorien und Funktionsweise

Wenn ein Agent im OSWorld-Verified-Test antritt, erhält er lediglich eine natürliche Sprachanweisung (z. B.: „Füge dem Dokument ‚Bericht.docx‘ Seitenzahlen hinzu und exportiere es als PDF“).

Die Überprüfung erfolgt in drei großen Anwendungsbereichen:

Office: Bearbeitung von Dokumenten, Tabellenkalkulationen und Präsentationen (z. B. via LibreOffice).
Daily: Alltagsaufgaben im Web und in Kommunikations-Apps (Chrome, Thunderbird, Mail-Clients, Dateimanagement).
Professional: Entwickler- und Admin-Aufgaben (z. B. Code-Anpassungen in VS Code, Systemkonfigurationen über das Terminal).

Nach Abschluss der Aufgabe prüft ein im Hintergrund laufendes Auswertungsskript den finalen Zustand des Systems (z. B. ob die Datei am richtigen Ort liegt und die korrekten Metadaten enthält). Der Weg dorthin ist der KI völlig freigestellt.