Symbolic Data Representation of Multi-Variate Machine Measurement Data to Identify Quasi-Linguistic Patterns with Machine Learning
Publikationen: Thesis / Studienabschlussarbeiten und Habilitationsschriften › Masterarbeit
Autoren
Organisationseinheiten
Abstract
Diese Masterarbeit untersucht die Erkennung von Anomalien in multivariaten Zeitreihen-Daten mit Sprachmodellen aus der Computerlinguistik. Die Grundlage bildet die Umwandlung der numerischen Maschinendaten in tokenisierte Daten, ähnlich zu Text. Der Prozess der Tokenisierung wird durch Diskretisierung der Daten und Zuweisung eindeutiger Token zu den diskreten Werten realisiert. Die so erhaltenen symbolischen Zeitreihen wurden dann mit zwei unterschiedlichen Ansätzen auf Anomalien untersucht.
Der erste Ansatz basiert auf N-Gramm Sprachmodellen. Ein N-Gramm ist eine Sequenz von Wörtern der Länge n. Die Anzahl der N-Gramme im Datensatz wird berechnet und mit einem statistischen Maß zur Beurteilung der Relevanz von Termen in einem Textkörper, dem Tf-idf-Maß, gewichtet. Dieses Maß dient als Grundlage zur Erkennung von Anomalien. Die Idee dahinter ist, dass N-Gramme, welche selten im gesamten Textkorpus vorkommen, auf außergewöhnliches Verhalten hindeuten.
Der zweite vorgestellte Ansatz nutzt maschinelles Lernen für die Erkennung von Anomalien im tokenisierten Datensatz. Dafür wurde ein Transformer-Modell programmiert, welches normalerweise zur Sprachmodellierung benutzt wird. Das Modell erhält eine Symbolsequenz, in der zufällige Einträge durch einen Masken-Token ersetzt werden, und versucht, die originalle numerische Sequenz wiederherzustellen. Weicht die Rekonstruktion stark vom Original ab, sind Anomalien im Datensatz zu erwarten. Beide Methoden wurden erfolgreich an einem Datensatz, der von Sensoren einer Maschine zur Verbesserung der Bodenbeschaffenheit für Gebäudefundamente stammt, angewandt. Die Auswertung der Ergebnisse hat gezeigt, dass eine Anomalieerkennung mit den entwickelten Ansätzen möglich ist und rechtfertigt besonders die Weiterentwicklung des künstlichen neuronalen Modells.
Der erste Ansatz basiert auf N-Gramm Sprachmodellen. Ein N-Gramm ist eine Sequenz von Wörtern der Länge n. Die Anzahl der N-Gramme im Datensatz wird berechnet und mit einem statistischen Maß zur Beurteilung der Relevanz von Termen in einem Textkörper, dem Tf-idf-Maß, gewichtet. Dieses Maß dient als Grundlage zur Erkennung von Anomalien. Die Idee dahinter ist, dass N-Gramme, welche selten im gesamten Textkorpus vorkommen, auf außergewöhnliches Verhalten hindeuten.
Der zweite vorgestellte Ansatz nutzt maschinelles Lernen für die Erkennung von Anomalien im tokenisierten Datensatz. Dafür wurde ein Transformer-Modell programmiert, welches normalerweise zur Sprachmodellierung benutzt wird. Das Modell erhält eine Symbolsequenz, in der zufällige Einträge durch einen Masken-Token ersetzt werden, und versucht, die originalle numerische Sequenz wiederherzustellen. Weicht die Rekonstruktion stark vom Original ab, sind Anomalien im Datensatz zu erwarten. Beide Methoden wurden erfolgreich an einem Datensatz, der von Sensoren einer Maschine zur Verbesserung der Bodenbeschaffenheit für Gebäudefundamente stammt, angewandt. Die Auswertung der Ergebnisse hat gezeigt, dass eine Anomalieerkennung mit den entwickelten Ansätzen möglich ist und rechtfertigt besonders die Weiterentwicklung des künstlichen neuronalen Modells.
Details
Titel in Übersetzung | Symbolisierte Datenrepräsentation in Kombination mit maschinellem Lernen zur Identifizierung von quasi-linguistischen Mustern in multivariaten Maschinendaten |
---|---|
Originalsprache | Englisch |
Qualifikation | Dipl.-Ing. |
Gradverleihende Hochschule | |
Betreuer/-in / Berater/-in |
|
Datum der Bewilligung | 15 Dez. 2023 |
DOIs | |
Status | Veröffentlicht - 2023 |