Impact of measurement errors on machine learning models in steel production

Publikationen: Thesis / Studienabschlussarbeiten und HabilitationsschriftenMasterarbeit

Organisationseinheiten

Abstract

Der Einsatz von Machine-Learning (ML)-Modellen zur Beschreibung von Materialeigenschaften ist zu einer wichtigen Forschungsrichtung in der Materialwissenschaft geworden, und immer mehr relevante und nützliche Datensätze werden verfügbar. Die systematische Behandlung von Unsicherheiten, die mit Messfehlern verbunden sind, bleibt jedoch ein schwieriges Thema. Diese Arbeit untersucht den Einfluss von Messfehlern auf die Vorhersagegenauigkeit von ML-Algorithmen für die mechanischen Eigenschaften von Stahl.
Im ersten Teil wird dieses Thema mit künstlich erzeugten linearen und nicht-linearen Datensätzen behandelt. Es wird gezeigt, dass Fehler in der Zielvariablen y, obwohl sie die Vorhersagegenauigkeit stärker beeinflussen als Fehler in den Merkmalen X, im Durchschnitt ausgeglichen werden, wenn y normalverteilt ist. Fehler in den Merkmalen X hingegen führen zu einer Verzerrung in Bezug auf die wahre Korrelation, die die Vorhersage systematisch vom tatsächlichen Wert abweichen lässt.
Im zweiten Teil zielt diese Arbeit darauf ab, ein tieferes Verständnis der Natur des Vorhersagefehlers durch die “Bias-Variance Decomposition“ zu vermitteln. Es wird analysiert, wie die separate Bestimmung des Messfehlers und die Untersuchung von Lernkurven genutzt werden können, um Bias oder Varianz des ML-Modells zu quantifizieren. Dies wird anhand eines Datensatzes zur Martensit-Starttemperatur (Ms) und eines r-Wert-Datensatzes demonstriert. Beim Ms-Datensatz zeigt sich, dass bei unterparametrisierten Modellen wie der linearen Regression der Trainingsfehler und der Validierungsfehler deutlich über dem Messfehler liegen, was auf Bias hinweist. Bei überparametrisierten Modellen wie XGBoost oder Random Forest ist der Trainingsfehler kleiner als der Messfehler, während der Validierungsfehler erheblich höher ist. Diese Modelle weisen daher Varianz auf und würden von mehr Datenpunkten profitieren. Die Leistung von XGBoost, Random Forest und Gaussian Process Regression auf dem Validierungsdatensatz ist vergleichbar. Für den r-Wert-Datensatz zeigt XGBoost ein ähnliches Verhalten wie beim Ms-Datensatz. Schließlich zeigt eine Analyse von Modellen aus der Literatur, die mechanische Eigenschaften aus Zugversuchen vorhersagen, dass der Validierungsfehler der Modelle nahe am Messfehler liegt. Daher sind Bias und Varianz dieser Modelle sehr gering, und die Vorhersagegenauigkeit ist weitaus höher, als der Validierungsfehler (oder der zugehörige Bestimmtheitskoeffizient R2) vermuten lässt.

Details

Titel in ÜbersetzungDie Auswirkungen von Messfehlern auf das maschinelle Lernen im Bereich der Stahlwerkstoffe
OriginalspracheEnglisch
QualifikationDipl.-Ing.
Gradverleihende Hochschule
Betreuer/-in / Berater/-in
Datum der Bewilligung20 Dez. 2024
DOIs
StatusVeröffentlicht - 2024