Shell: Bewertung der Leistung von Modellen für maschinelles Lernen, die im Energiesektor verwendet werden
Fallstudie von Shell.
Dieses Projekt nutzt Deep Learning zur Durchführung von Computer-Vision-Aufgaben – semantische Segmentierung in einer speziellen Anwendungsdomäne. Das Projekt verfügte über etwa 15 Deep-Learning-Modelle (DL) im aktiven Einsatz. Die DL-Modelle werden kaskadiert auf die generierten Vorhersagen angewendet, die dann in eine Reihe nachgelagerter Aufgaben eingespeist werden, um die endgültige Ausgabe zu generieren, die in die manuelle Interpretationsaufgabe eingegeben wird. Daher ist die KI-Sicherung durch Modellleistungsbewertung von entscheidender Bedeutung, um robuste und erklärbare KI-Ergebnisse sicherzustellen. Drei Arten von Modellbewertungstests wurden entworfen und in die DL-Inferenzpipeline implementiert:
Weitere Informationen zu den Regulierungsgrundsätzen des AI-Whitepapers.
Die Regressions- und Integrationstests bilden das Rückgrat und sorgen für die Interpretierbarkeit des Modells anhand einer Reihe von Testdaten. Während der Modellentwicklung liefern sie eine Grundlage für die Interpretation, ob sich die Modellleistung abhängig von den Modelltrainingsdaten und -parametern verbessert oder verschlechtert. Während der Modellbereitstellungsphase liefern diese Tests auch frühzeitige Hinweise auf Konzeptabweichungen.
Statistische Tests sind eher darauf ausgelegt, die Modellleistung anhand der Statistiken der Testdaten vorherzusagen und bieten somit einen Mechanismus zur Erkennung von Datenabweichungen bei der Modellbereitstellung. Darüber hinaus geben sie auch einen Hinweis darauf, wie robust die Leistung des DL-Modells gegenüber statistischen Schwankungen in Testdaten ist.
Das Ergebnis dieser KI-Assurance-Technik wird an KI-Entwickler und Produktbesitzer weitergegeben, um mögliche Abweichungen von der erwarteten DL-Modellleistung zu überwachen. Darüber hinaus können diese Teams bei Leistungsabweichungen geeignete Abhilfemaßnahmen ergreifen.
Außerdem soll für Frontline-Benutzer und Geschäftsinteressenten ein hohes Maß an Vertrauen in die Ergebnisse der DL-Modelle aufrechterhalten werden.
KI-Entwickler sind für die Gestaltung und Durchführung der Modellbewertungstests verantwortlich, um die Leistungstests zu stärken. Produktbesitzer sind dafür verantwortlich, diese Tests als erste Verteidigungslinie vor der Bereitstellung neuer Modelle zu nutzen. Das Projektteam arbeitet zusammen, um die Tests anzupassen, um Daten- und Konzeptdrift während der Bereitstellung zu bewältigen.
In diesem Projekt generieren die Vorhersagen der DL-Modelle letztendlich Eingaben für eine manuelle Interpretationsaufgabe. Diese Aufgabe ist kompliziert, zeitaufwändig und arbeitsintensiv. Daher ist es entscheidend, dass der Ausgangspunkt (in diesem Fall die Vorhersagen des DL-Modells) hinsichtlich Genauigkeit, Erkennungsabdeckung und sehr geringem Rauschen von hoher Qualität ist. Darüber hinaus fließt das Ergebnis der manuellen Interpretation in einen wirkungsvollen Entscheidungsprozess ein.
Die Qualität und Robustheit der Vorhersage des DL-Modells ist daher von größter Bedeutung. Die wichtigste Messgröße zur Beurteilung der Vorhersageleistung des ML-Modells ist die Human-in-the-Loop-Qualitätskontrolle. Um jedoch die Leistungstests als erste Verteidigungslinie zu automatisieren, wurde die Testsuite-Technik zur Modellbewertung übernommen. Die Datenversionskontrolle und die Erstellung impliziter ML-Experimentpipelines dienten hauptsächlich dazu, sicherzustellen, dass die Modelle durchgängig (Daten-, Code- und Modellleistung) innerhalb einer akzeptablen Fehlermarge reproduziert werden können.
Erste Verteidigungslinie, automatisierte DL-Leistungstests für die Qualitätssicherung
Testen Sie die Robustheit des Modells und eine bessere Interpretierbarkeit der DL-Modellleistung.
Umfangreiche Erklärung der Leistung des DL-Modells für KI-Entwickler und Endbenutzer
Bauen Sie bei der Benutzergemeinschaft Vertrauen in DL-Modelle und -Workflows auf
Ermöglicht die Modellüberwachung durch Einrichtung eines Mechanismus zur Erkennung von Konzeptabweichungen.
MLOps-Hooks zum Aktivieren von CI-CD während der Modellbereitstellung.
Eine große Anzahl von DL-Modellen mit sehr unterschiedlichen Aufgaben: Erkennung, Klassifizierung, Rauschunterdrückung.
Die Komplexität und Variabilität der von DL behandelten Probleme erschwert die Entwicklung von KPIs.
Mangel an qualitativ hochwertigen, repräsentativen Daten, die zur Gestaltung der Modellbewertung verwendet werden könnten
Fehlen klarer Metriken/Schwellenwerte für die Gestaltung von Regressions-, Integrations- und statistischen Tests.
Fehlen einer stabilen Modellbewertungsbibliothek.
Weitere Informationen zu anderen Techniken finden Sie im OECD-Katalog der Tools und Metriken: https://oecd.ai/en/catalogue/overview
Weitere Informationen zu relevanten Standards finden Sie im AI Standards Hub: https://aistandardshub.org/