1. Problembeschreibung und Zielsetzung
Wir verfolgen das Ziel, den Ausfall von 75 medizinischen Geräten anhand multivariater longitudinaler Telemetriedaten vorherzusagen. Dazu entwickeln und evaluieren wir ein prädiktives Modell, dokumentieren unseren Ansatz und implementieren ein Frühwarnsystem, das Ausfälle bis zu 10 Tage im Voraus prognostiziert.
1.1. Zielsetzung
Vorhersage von Geräteausfällen anhand von Panel-/longitudinalen (multivariaten) Zeitreihendaten aus Telemetrie.
1.2. Problemstellung
Vorhersage, ob am folgenden Tag (t+1) ein Ausfall auftreten wird, basierend auf den Sensordaten bis zum Tag t.
2. Inhalt der Fallstudie
Hier der Aufbau:
I. Explorative Datenanalyse (EDA)
- Vorverarbeitung der Rohdaten
- Durchführung univariater Analysen
- Durchführung bivariater Analysen: Sensordaten vs. Ausfallstatus (z. B. Violin Plots)
- Korrelationsanalysen
II. Feature Engineering
- Rückverschiebung der Ausfallspalte zur Simulation eines Frühwarnsystems (proaktives Labeling)
- Erstellung von Lag-Features zur Abbildung vergangener Zustände
- Berechnung von rollierenden Statistiken (z. B. 7-Tage-Mittelwert, Standardabweichung)
- (Bonus) Erstellung eines binären Labels, das angibt, ob innerhalb der nächsten 10 Tage ein Ausfall eintritt
III. Modellentwicklung
Durchführung eines zeitbewussten, gruppenerhaltenden Train-Test-Splits (nach Maschine und Tag)
Bewertung und ggf. Behandlung von Klassenungleichgewichten
Training überwachter Lernverfahren:
- Random Forest
- XGBoost
- LSTM
Evaluierung anhand von:
- F1-Score
- ROC AUC
- Precision & Recall
IV. Bonus: Frühwarnmodell
- Anpassung des Targets zur Vorhersage von Ausfällen innerhalb der nächsten 10 Tage
V. Ausblick
- Welche Schritte sind erforderlich, um ein möglichst optimiertes und robustes Modell zu erhalten?
3. Vollständige Fallstudie im Git-Repository
Die vollständige Fallstudie inklusive Code und Daten ist auf GitHub verfügbar, um einfachen Zugriff und Reproduzierbarkeit zu gewährleisten:
- Jupyter Notebook: Enthält den kompletten Analyse-Workflow mit detaillierten Erklärungen und sämtlichem Python-Code.
- Datensatz: Bereitgestellt zum Download, damit die Ergebnisse reproduziert und weiter untersucht werden können.
🔗 Notebook und Datensatz können direkt aus unserem GitHub-Repository heruntergeladen werden:
https://github.com/3dStatisticalLearning/predictive_maintenance_medical_device.git
Wir unterstützen Unternehmen und Forschungseinrichtungen dabei, komplexe Fragestellungen durch fundierte Beratung in Statistik und Machine Learning sowie durch zielgerichtete Weiterbildungsangebote zu lösen.
Unsere Kernkompetenzen umfassen:
– Statistische Beratung:
Umfassende Beratung, die genau auf Ihre datengetriebenen Anforderungen zugeschnitten ist.
– Schulungen und Coaching:
Fundierte Trainings in Statistik, Machine Learning sowie in der Anwendung statistischer Software wie SAS, R und Python.
– Reproduzierbare Datenanalyse-Pipelines:
Entwicklung dokumentierter und reproduzierbarer Workflows mittels SAS-Makros sowie individueller R- und Python-Codes.
– Interaktive Datenvisualisierung und Webanwendungen:
Erstellung dynamischer Visualisierungen und Web-Apps mit R (Shiny, Plotly), Python (Streamlit, Dash by Plotly) sowie SAS (SAS Viya, SAS Web Report Studio).
– Automatisierte Berichterstattung und Präsentation:
Generierung automatisierter Berichte und Präsentationen unter Einsatz von Markdown und Quarto.
– Datenanalyse für wissenschaftliche Forschung:
Fortgeschrittene analytische Unterstützung für Forschungsprojekte.