Symbolic Data Representation of Multi-Variate Machine Measurement Data to Identify Quasi-Linguistic Patterns with Machine Learning

Philip Nuser

doi:10.34901/mul.pub.2024.015

Symbolic Data Representation of Multi-Variate Machine Measurement Data to Identify Quasi-Linguistic Patterns with Machine Learning

Publikationen: Thesis / Studienabschlussarbeiten und Habilitationsschriften › Masterarbeit

Autoren

Philip Nuser

Organisationseinheiten

Lehrstuhl für Automation und Messtechnik (530)

Abstract

Diese Masterarbeit untersucht die Erkennung von Anomalien in multivariaten Zeitreihen-Daten mit Sprachmodellen aus der Computerlinguistik. Die Grundlage bildet die Umwandlung der numerischen Maschinendaten in tokenisierte Daten, ähnlich zu Text. Der Prozess der Tokenisierung wird durch Diskretisierung der Daten und Zuweisung eindeutiger Token zu den diskreten Werten realisiert. Die so erhaltenen symbolischen Zeitreihen wurden dann mit zwei unterschiedlichen Ansätzen auf Anomalien untersucht.
Der erste Ansatz basiert auf N-Gramm Sprachmodellen. Ein N-Gramm ist eine Sequenz von Wörtern der Länge n. Die Anzahl der N-Gramme im Datensatz wird berechnet und mit einem statistischen Maß zur Beurteilung der Relevanz von Termen in einem Textkörper, dem Tf-idf-Maß, gewichtet. Dieses Maß dient als Grundlage zur Erkennung von Anomalien. Die Idee dahinter ist, dass N-Gramme, welche selten im gesamten Textkorpus vorkommen, auf außergewöhnliches Verhalten hindeuten.
Der zweite vorgestellte Ansatz nutzt maschinelles Lernen für die Erkennung von Anomalien im tokenisierten Datensatz. Dafür wurde ein Transformer-Modell programmiert, welches normalerweise zur Sprachmodellierung benutzt wird. Das Modell erhält eine Symbolsequenz, in der zufällige Einträge durch einen Masken-Token ersetzt werden, und versucht, die originalle numerische Sequenz wiederherzustellen. Weicht die Rekonstruktion stark vom Original ab, sind Anomalien im Datensatz zu erwarten. Beide Methoden wurden erfolgreich an einem Datensatz, der von Sensoren einer Maschine zur Verbesserung der Bodenbeschaffenheit für Gebäudefundamente stammt, angewandt. Die Auswertung der Ergebnisse hat gezeigt, dass eine Anomalieerkennung mit den entwickelten Ansätzen möglich ist und rechtfertigt besonders die Weiterentwicklung des künstlichen neuronalen Modells.

Details

Titel in Übersetzung	Symbolisierte Datenrepräsentation in Kombination mit maschinellem Lernen zur Identifizierung von quasi-linguistischen Mustern in multivariaten Maschinendaten
Originalsprache	Englisch
Qualifikation	Dipl.-Ing.
Gradverleihende Hochschule	Montanuniversität
Betreuer/-in / Berater/-in	O'Leary, Paul, Betreuer (intern)
Datum der Bewilligung	15 Dez. 2023
DOIs	https://doi.org/10.34901/mul.pub.2024.015
Status	Veröffentlicht - 2023

Forschungsportal

Symbolic Data Representation of Multi-Variate Machine Measurement Data to Identify Quasi-Linguistic Patterns with Machine Learning

Autoren

Organisationseinheiten

Abstract

Details

Dokumente

360 Link