Schlüsseltechnologien

Holis­­tische Eva­lua­­tion Genera­tiver Foun­­dation Models im Sicher­heits­kontext (HEGEMON)

Hintergrund

  1. Status: Vorhaben

Generative KI-Anwendungen wie ChatGPT oder Midjourney erfahren derzeit eine große Aufmerksamkeit. Die Nutzung dieser Modelle in unterschiedlichsten Anwendungsgebieten ist ohne technische Vorkenntnisse möglich, da sie auf Basis freier Eingaben (Prompts) komplexe und multimodale Ausgaben (z.B. Text, Bild, Audio, Video) erzeugen können. Die zunehmende Adaption generativer KI-Modelle in den Domänen der Inneren und Äußeren Sicherheit ist angesichts des großen Anwendungspotenzials absehbar. Dabei werden die hinter generativen KI-Anwendungen stehenden Basismodelle (Foundation Models) mehrheitlich von privatwirtschaftlichen Unternehmen zumeist in den USA und China mit hohem Aufwand trainiert und sind danach mit nur geringem Zusatztraining für viele Aufgaben einsetzbar. Ihre zugrundeliegenden Datensätze, Trainingsmechanismen und Modellarchitekturen werden zumeist nicht (mehr) veröffentlicht. Dem hohen Anwendungspotential stehen damit im Hinblick auf den Sicherheitskontext eine derzeit hohe technologische Abhängigkeit und Risiken in der Cyber- und Anwendungssicherheit entgegen. 

Zur verbesserten Einschätzung der Eigenschaften fremdtrainierter Modelle sind Evaluationen und Vergleiche in Form von Benchmarks zielführend, die aufgrund der hohen Vielseitigkeit und der unstrukturierten Outputs dieser Modelle jedoch ein komplexes Problem darstellen, das im Sicherheitskontext zusätzliche Dringlichkeit erhält. Gerade das holistische Benchmarking bleibt in Anbetracht der zuletzt stark gewachsenen Fähigkeiten großer KI-Modelle eine offene und zunehmend relevante Forschungsfrage. 

Zielstellung

Im Rahmen eines Wettbewerbs sollen domänenspezifischer, ganzheitlicher Benchmark-Sets (bestehend aus Aufgaben, Metriken und passenden Testdatensätzen) sowie angepasster KI-Modelle für festgelegte Anwendungsfälle entwickelt werden, die eine ganzheitliche Evaluation vortrainierter generativer KI-Basismodelle (z. B. Text-Bild-Modelle) zu einem vorgegebenen Anwendungsfall ermöglichen. Zudem sollen Foundation Models auf diesen Anwendungsfall angepasst (Finetuning oder In-Context-Learning), mit Hilfe der verschiedenen entwickelten Benchmarks evaluiert und in Form eines Anwendungsdemonstrators implementiert werden. Darüber hinaus sollen konzeptionelle Erkenntnisse zum grundlegenden Problem der Evaluation insbesondere universell einsetzbarer KI-Systeme gewonnen werden.

Im Vordergrund stehen drei Use Cases aus dem Geoinformationswesen:

  • die Erzeugung nachvollziehbarer Text-Zusammenfassungen zu länderspezifischen Themen,
  • die Umwandlung von Fernerkundungsdaten in Vektordaten,
  • sowie ein Karten-Chatbot mit intelligenter Textausgabe auf Kartenbasis (bspw. „Gibt es auf dieser Karte medizinische Einrichtungen? Bitte teile die Koordinaten mit, falls sie vorhanden sind.“).

Disruptive Risikoforschung

Die Entwicklung der Benchmarks und Anpassung der Basismodelle sowie deren Demonstrator-Umsetzung erfolgen in einer einzigartigen kompetitiven Konstellation, in der jede Teilnehmerin und jeder Teilnehmer sowohl hinsichtlich Benchmark als auch Modellentwicklung im direkten Vergleich mit allen anderen Teilnehmerinnen und Teilnehmern steht. Jedes Modell wird mit allen entwickelten Benchmarks – Eigen- wie Fremdentwicklungen – evaluiert und gerankt. Alle Benchmarks werden zudem getrennt hinsichtlich ihrer Eigenschaften bewertet. Es besteht dabei die Möglichkeit, dass für bestimmte KI-Systeme keine hinreichend geeigneten Evaluierungsmechanismen unter bestimmten (Ganzheitlichkeits-) Anforderungen gefunden werden, da jeder Benchmark spezifisch, endlich und kontextuell ist.

Fragen zum Programm? Schreiben Sie uns:

  1. Programm-Team: Schlüsseltechnologien | Cybersicherheit durch KI & für KI
  2. E-Mail: hegemon@cyberagentur.de

Newsletter

Ihr Update in puncto Forschung, Vergabe und Co.

Abonnieren Sie unseren wissenschaftlichen Newsletter. So erfahren Sie zeitnah, welche Forschungsprogramme wir gerade vergeben, wann Partnering Events, Symposien oder auch Ideenwettbewerbe anstehen und was es Neues in der Forschung gibt.