Vier Teams entwickeln KI-Benchmarks und Modelle für sicherheitskritische Anwendungen
Mit HEGEMON beginnt ein in Europa einzigartiger Forschungswettbewerb: Vier Teams treten gegeneinander an, um generative Foundation Models erstmals systematisch, neutral und nachvollziehbar für sicherheitskritische Kontexte zu adaptieren. Im Zentrum stehen anspruchsvolle Aufgaben aus dem Geoinformationswesen – und die Frage, wie und welche international vortrainierten Modelle sich für deutsche Sicherheitsbehörden zuverlässig einsetzen lassen. Die Agentur für Innovation in der Cybersicherheit GmbH (Cyberagentur) setzt dabei bewusst auf Leistungsvergleich, Transparenz und strenge Evaluationszyklen.
Die Cyberagentur hat den Startschuss für HEGEMON gegeben – ein neues, dreijähriges Forschungsprogramm zur Entwicklung ganzheitlicher Benchmarks und passgenauer KI-Modelle für sicherheitskritische Anwendungen. Die Ausschreibung war im Juni 2025 eröffnet worden. Nach einem intensiven Bewertungsverfahren, das auch Expertinnen und Experten der Bedarfsträger Bundeswehr, ZITiS und BSI einbezog, stehen nun die vier Auftragnehmer fest, die den Wettbewerb bestreiten.
Ausgewählt wurden das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) im Verbund mit der GAF AG, die dida Datenschmiede GmbH, das Fraunhofer-Institut für Integrierte Schaltungen (IIS) sowie das Institut für Angewandte Informatik (InfAI) e. V. Sie alle adressieren eine der zentralen Herausforderungen der aktuellen KI-Landschaft: die fehlende Möglichkeit, international entwickelte Foundation Models – überwiegend aus den USA oder China – systematisch, vergleichend und belastbar im sicherheitskritischen europäischen Kontext zu evaluieren.
HEGEMON setzt genau hier an. In einem Wettbewerbsformat „jeder gegen jeden“ werden die Modelle der vier Teams für komplexe Aufgaben aus dem Geoinformationswesen angepasst. Dazu gehören:
- die Erzeugung nachvollziehbarer Text-Zusammenfassungen zu länderspezifischen Themen,
- die Umwandlung von Fernerkundungsdaten in Vektordaten,
- sowie ein Karten-Chatbot mit intelligenter Textausgabe auf Kartenbasis (bspw. „Gibt es auf dieser Karte medizinische Einrichtungen? Bitte teile die Koordinaten mit, falls sie vorhanden sind.“).
Neben der Entwicklung der Modelle entstehen domänenspezifische, ganzheitliche Benchmark-Sets – bestehend aus Aufgaben, Metriken und Testdatensätzen – die den Bedarfsträgern künftig eine transparente und nachvollziehbare Leistungsbewertung von KI-Systemen ermöglichen sollen.
Ein Kernmerkmal des Programms ist die neutrale Testumgebung: Alle Teilnehmenden übermitteln ihre Modelle und Benchmarks an eine separate Plattform, die in Kooperation mit der GISA GmbH betrieben wird. Dort erfolgt die Inferenz unter identischen Bedingungen und die Resultate werden auf einem Leaderboard transparent zusammengeführt.
Der Wettbewerb ist in mehrere Evaluationsphasen unterteilt: Nach neun Monaten erfolgt der erste große Test. Basierend auf den Ergebnissen geht die Forschung in ihre nächste Phase, bis nach 20 Monaten ein zweiter Interaktionszeitraum und nach 36 Monaten der Abschlusstest folgen.
Dr. Daniel Gille, Leiter Künstliche Intelligenz in der Cyberagentur und Programmleiter, betont den Mehrwert dieses Ansatzes: „Von dem gegenseitigen Wettbewerb und den regelmäßigen Interaktionen erhoffen wir uns nicht nur leistungsfähigere Modelle, sondern auch wesentlich aussagekräftigere Benchmarks. Denn um vorne zu liegen, müssen alle Teilnehmenden kontinuierlich voneinander lernen und ihre Ansätze weiterentwickeln. Das sorgt für Dynamik, Qualität und echten Fortschritt.“
Besonders hebt er die Rolle der Bedarfsträger hervor: „Die Einschätzungen von BSI, ZITiS und Bundeswehr sind hochgradig anwendungsrelevant, sehr fundiert und erweitern unsere fachliche Bandbreite nochmals signifikant. So kann sichergestellt werden, dass unsere Programme von Anfang an auf hochrelevante und verwertbare Ergebnisse zusteuern.“
Mit HEGEMON schafft die Cyberagentur einen neuen Standard für die Evaluierung sicherheitskritischer KI in Deutschland und Europa. Der Wettbewerb legt die Grundlage für robuste, transparente und vergleichbare Prüfverfahren – ein entscheidender Schritt hin zu vertrauenswürdigen Foundation Models im Sicherheitsbereich.
Weitere Informationen: