Prognosen mit Predictive Analytics

Prognosen mit Predictive Analytics

Während Prognosen sehr oft zu einem gewissen Maße auf Bauchgefühl und Voreingenommenheit beruhen und daher sehr ungenau sind, würde die Einbeziehung statistischer Methoden im Rahmen fortgeschrittener Analysen die Genauigkeit dieser deutlich erhöhen. Es darf jedoch nicht vergessen werden, dass es stets Abweichungen geben wird und dass es keine statistisch perfekte Formel gibt (insbesondere in Zeiten einer Pandemie). Wenn es um die kurzfristige Umsatzplanung geht, verfehlen Industrieunternehmen Umsatzziele im weltweiten Durchschnitt um etwa 30 %, da sie zum einen nur historische Daten über einen kurzen Zeitraum betrachten und zum anderen nur begrenzte Schlüsselfaktoren (meist Produktionskennzahlen) verwenden. Auf künstlicher Intelligenz und im spezielleren auf Machine Learning basierende Analysen ermöglichen längere Zeiträume und Daten über Marktentwicklungen oder Produktlebenszyklen einzubeziehen. Infolgedessen könnten Industrieunternehmen ihre Lagerbestände und Produktveraltung in der Regel zwischen 20 und 40 % reduzieren.

 

Strategische Ausrichtung statt monetärer Investition

Je weiter sich die Prognosen in die Zukunft erstrecken, desto schwieriger wird es, eine relative Genauigkeit zu gewährleisten, ohne die Muster, Trends und Saisonalität des Machine Learnings zu nutzen. Für Finanzabteilungen wird es immer wichtiger, Echtzeitdaten zu generieren, die die sich ständig ändernde Marktsituation widerspiegeln. Daher müssen sie eng mit der Analytics-Abteilung (die häufig noch Teil der IT-Abteilung ist) zusammenarbeiten, um sicherzustellen, dass die Finanzdaten in Echtzeit und im richtigen Format für Analysezwecke zur Verfügung stehen. Intern müssen Strukturen geschaffen werden, die sicherstellen, dass diese Erkenntnisse so schnell und effektiv wie möglich an die betreffenden Abteilungen weitergeleitet werden. Darüber hinaus ist es von entscheidender Bedeutung zu verstehen, dass die Einführung einer Datenstrategie kurzfristig meist nur eine monetäre Investition ist, bei der erst mittelfristige Gewinne erzielt werden, langfristig aber ein erheblicher zusätzlicher Unternehmenswert geschaffen werden kann.

 

Enge Zusammenarbeit zwischen der Finanz- und Analytics-Abteilung als Erfolgsfaktor

Für eine erfolgreiche Implementierung müssen Führungskräfte eine klare Vision haben und verfolgen, diese Top-down im gesamten Unternehmen kommunizieren und strategische Ziele danach ausrichten. Insbesondere CFOs sind in einer perfekten Rolle, um diese Transformationen zu leiten. Denn sie verfügen über Fachwissen und sind in der Lage zusammen mit Analytics-Teams Finanzkennzahlen zu erarbeiten und im späteren Verlauf deren Performance zu evaluieren.

 

Die technische Umsetzung

Zur Umsetzung können verschiedenste Programmiersprachen und Tools verwendet werden. Während der Input meist als „.xlsx“ oder „.csv“ eingespielt wird, passiert die spätere Analyse oft in den Programmiersprachen Python oder R.

 

PythonPython ist eine allgemeine, objektorientierte Programmiersprache, die durch die großzügige Verwendung von Leerraum die Lesbarkeit des Codes fördert. Python hat sich durch die vermehrten Anwendungsbereiche von Data Science in den letzten Jahren zu einer der beliebtesten Programmiersprachen entwickelt.

 

Python eignet sich besonders gut für den Einsatz von Machine Learning im großen Stil. Die Palette an spezialisierten Deep-Learning- und Machine-Learning-Bibliotheken ermöglicht es Analysten, anspruchsvolle Datenmodelle zu entwickeln, die direkt in ein Produktionssystem integriert werden können

 

RR ist eine Open-Source-Programmiersprache, die für statistische Analysen und Datenvisualisierung optimiert ist. R wurde von Statistikern entwickelt und lehnt sich stark an statistische Modelle und spezielle Analysen an. Data Scientists verwenden R für tiefgreifende statistische Analysen, die von nur wenigen Codezeilen und ansprechenden Datenvisualisierungen unterstützt werden.

 

Zeitreihenanalysen und -prognosen gewinnen an zunehmender Beliebtheit

Die Zeitreihe ist eine Reihe von Messwerten, die täglich, wöchentlich, monatlich, vierteljährlich oder in regelmäßigen Abständen aufgezeichnet werden. Die Zeitreihenanalyse erfordert die Erstellung von Modellen, um die beobachteten Zeitreihen zu erklären und zu verstehen, worauf sich der Datensatz konzentriert. Dazu müssen Annahmen und Interpretationen zu den gegebenen Daten aufgestellt werden. Bei der Zeitreihenprognose wird das am besten passende Modell verwendet, um zukünftige Beobachtungen auf der Grundlage einer komplexen Verarbeitung aktueller und früherer Daten vorherzusagen.

 

Machine Learning hat sich bei der Erfassung von Mustern in der Abfolge von strukturierten und unstrukturierten Daten und ihrer weiteren Analyse für genaue Vorhersagen als am effektivsten erwiesen. Für die Implementierung eines effektiven Zeitreihenmodells sollten die Komponenten von Zeitreihendaten verstanden werden:

  • Trends (zur Beschreibung des zunehmenden oder abnehmenden Verhaltens der Zeitreihen, die häufig in linearen Modi dargestellt werden).
  • Saisonalität (zur Hervorhebung des sich wiederholenden Musters von Zyklen des Verhaltens im Laufe der Zeit)
  • Unregelmäßigkeiten/Noise (um den unsystematischen Aspekt von Zeitreihen zu betrachten, die von den üblichen Modellwerten abweichen)
  • Zyklizität (um die sich wiederholenden Veränderungen in den Zeitreihen zu identifizieren und ihre Position im Zyklus zu bestimmen).

 

Modellierung von Zeitreihen

Unter den zahlreichen Methoden, die darauf abzielen, Präzision zu erreichen und Fehler und Verluste bei der Zeitreihenprognose zu minimieren, gibt es mehrere klassische und moderne Methoden des Machine Learnings, die sich durch ihre Genauigkeit und rechnerische Relevanz auszeichnen. Beispiele hierfür sind:

 

  • Naives Modell: In den meisten Fällen werden naive Modelle als Random Walk (mit dem zuletzt beobachteten Wert als Einheit für die Vorhersage der nächsten Periode) und als saisonaler Random Walk (mit einem Wert aus derselben Periode wie die zuletzt beobachtete Periode als Einheit für die Vorhersage) angewendet.
  • Exponentielles Glättungsmodell: Prognosen werden auf der Grundlage erfasster gewichteter Mittelwerte erstellt, wobei die Gewichte abnehmen, je weiter der Beobachter in der Zeit zurückgeht. Es wurden mehrere Erweiterungen der einfachen exponentiellen Glättung (Single Exponential Smoothing – SES), eingeführt, um den Trend/gedämpften Trend und die Saisonalität einzubeziehen.
  • ARIMA / SARIMA: ARIMA ist ein kombiniertes Modell der Zeitreihen, das Kombinationen von autoregressiven Ansätzen (Autoregressive – AR) und Ansätzen des gleitenden Durchschnitts (Moving Average – MA) beschreibt. ARIMA-Modelle umfassen Saison- und Musterparameter (z. B. stumme Wochentagsvariablen und ihre Unterscheidung). Darüber hinaus werden autoregressive und gleitende Mittelwerte in den Daten verwendet, um die Autokorrelation zu verwalten. SARIMA steht für Seasonal Autoregressive Integrated Moving Average (saisonaler autoregressiver integrierter gleitender Durchschnitt): Es erweitert den Anwendungsbereich des ARIMA, indem es eine lineare Kombination von saisonalen Vergangenheitswerten und/oder Prognosefehlern einbezieht.
  • MLP-Modell eines neuronalen Netzes: Der derzeitige Erfolg und die daraus resultierende Popularität des Deep Learnings ist auf das vorangegangene und anhaltende exponentielle Wachstum der Datenverfügbarkeit, der Speicherkapazität und der reinen Rechenleistung zurückzuführen. Informationen in Feedforward-Netzwerken oder Perzeptrons fließen nur in eine Richtung – von der Eingabe zur Ausgabe. Wie in Abb. 1 ersichtlich, sind die Knoten in Schichten organisiert. Jeder Knoten erzeugt eine Ausgabe, die eine nichtlineare Funktion auf seine Eingaben aus der darunter liegenden Schicht anwendet. Ein mehrschichtiges oder tiefes Feedforward-Netzwerk wird auch mehrschichtiges Perzeptron (Multi-Layer Perceptron - MLP) genannt. Es besteht aus einer oder mehreren versteckten Schichten zwischen der Eingabe- und Ausgabeschicht.

MLP-Modell

  • RNN mit Fokus auf LSTM: MLP berücksichtigt jeweils nur ein Ereignis und geht davon aus, dass alle Eingaben vorübergehend unabhängig voneinander sind. Diese Annahme ist jedoch in vielen realen Situationen unzutreffend: In der Sprache steht jedes Wort eines Satzes in Beziehung zueinander, während Daten in Zeitreihen, wie Cashflows, auch in Beziehung zu vergangenen Daten stehen. Rekurrente neuronale Netze (Recurrent Neural Network Models - RNNs) wurden entwickelt, um mit diesen Abhängigkeiten umzugehen. In jedem Zeitschritt kann sich ein RNN-Knoten an Informationen aus früheren Zeitschritten erinnern. Modelle mit langem Kurzzeitgedächtnis (Long Short-Term Memory Models - LSTMs) sind derzeit die am häufigsten verwendete Form von RNN-Modellen. Eine weitere sehr ähnliche Version zu LSTM ist die Gated Recurrent Unit (GRU).

Neurales Netz

 

Die Knoten in der verborgenen Schicht leiten Informationen durch nachfolgende Instanzen weiter, in Abb. 2 als gestrichelte Pfeile dargestellt.

 

Die Aufstellung von Prognosen erfordert einen flexiblen Ansatz, da es sich um einen sukzessiven Prozess handelt. Die iterativen Schleifen umfassen eine Reihe von Erkundungen und Visualisierungen, um gewünschte Daten zu erhalten. Nach der Visualisierung kann es erforderlich sein, wieder einen Schritt zurückzugehen, um weitere Daten zu sammeln. Die Modelle werden überarbeitet und aktualisiert, wenn neue Daten und neue Erkenntnisse vorliegen.

 

Der Entscheidungsbaum (Decision Tree) als weiteres effektives Tool im Bereich des Machine Learnings für den Finanzbereich

Das zugrundeliegende Konzept verschiedener Algorithmen des Machine Learnings ist die Verwendung von Stichproben (d.h. Trainingsdaten) zur Erstellung eines mathematischen Modells. Unter diesen Algorithmen hat sich die Decision-Tree-Methode für die Vorhersage bei Klassifizierungsproblemen mit mehreren Klassen (Einteilung in mehrere Kategorien) als sehr geeignet erwiesen. Das Decision-Tree-Modell hat sich vom anfänglichen Einzelbaummodell zu verschiedenen komplexeren Modellen entwickelt, um eine bessere Leistung zu erzielen und Ressourcen zu sparen. Die beiden derzeit am weitesten verbreiteten Modelle sind XGBoost und LightGBM.

 

Für den speziellen Fall der Gewinnvorhersage mit ausgewählten Variablen ist es von Vorteil LightGBM, als eines der leistungsstärksten und effektivsten Gradient-Boosting-Decision-Tree-Modelle (GBDT), zu verwenden.

 

Bei der Anwendung eines solchen Modells ist es unter anderem enorm wichtig, die Dimensionen auf die für den bestmöglichen Output am sinnvollsten zu beschränken, wobei dafür Vorgehensweisen wie Hauptkomponentenanalyse (Principal Component Analysis – PCA) oder eine gewöhnliche Kleinstquadratemethode (Ordinary Least Squares – OLS) zu verwenden sind. Durch diese Einschränkung der Dimensionen mit einer dieser beiden Methoden wird sichergestellt, dass die Anzahl der Freiheitsgrade (Degrees of Freedom) klein genug gehalten werden, dass die Stichprobengröße die Aussagekraft aller Dimensionen sicherstellt.

 

Die Optimierung der Hyperparameter sind im letzten Schritt vor der Implementierung wichtig, um das Machine-Learning-Modell während der Trainingsphase zu unterstützen und zu einer bestmöglichen Leistung zu führen. Damit werden eine bessere Genauigkeit (Accuracy) gewährleistet und eine Überanpassung (Overfitting) an die Trainingsdaten vermieden.

Genauigkeit

 

Fazit

Generell kann gesagt werden, dass diese Analysen auf der einen Seite ein enormes Potential aufweisen, auf der anderen Seite jedoch auch mit Vorsicht zu genießen sind. Für eine erfolgreiche Implementierung müssen konsistente historische Daten aufbereitet und eine Anbindung zum Machine-Learning-Modell geschaffen werden. Dieses Potential wird speziell von sehr vielen traditionellen Unternehmen bis dato noch nicht ausgeschöpft und könnte in Zukunft zum einen die Planungssicherheit erhöhen aber zum anderen auch Effizienzpotentiale aufdecken. Auf der anderen Seite ist es jedoch wichtig zu verstehen, dass solche Analysen enorm unter mangelnder Qualität der Inputdaten und nicht durchdachter Algorithmen leiden und dadurch sogar zu drastischen Fehlprognosen führen können. Darüber hinaus gibt es immer externe Faktoren, welche nur sehr schwer von solchen Modellen erfassbar sind, aus welchem Grund sich auch mit dem besten Planungsmodell unweigerlich Abweichungen ergeben werden.

 

Wir als ACTUM können Sie in dieser entscheidenden Phase dabei unterstützen effektive Analysen für Ihre Unternehmensplanung aufzubauen und deren Weiterentwicklung ständig unterstützen, um damit deren Plangenauigkeit stetig zu verfeinern. Neben der schlichten Visualisierung von Ergebnissen erarbeiten wir mit Ihnen Dashboards, welche individuell an Ihre Bedürfnisse angepasst werden können. Dashboards bringen zusätzlich den Vorteil, dass mittels „Stellschrauben“ die Auswirkung gewisser Schlüsselparameter interaktiv simuliert und Sie damit auf die Effekte verschiedenster Szenarien vorbereitet sind und im entscheidenden Moment Maßnahmen treffen können.

Philipp Domenig, MSc
Consultant

Zurück

Copyright 2021 ACTUM Performance Group GmbH. Alle Rechte vorbehalten.
Diese Website nutzt Cookies, um bestmögliche Funktionalität bieten zu können. Sollten Sie damit nicht einverstanden sein, können Sie Cookies in Ihren Browser-Einstellungen deaktivieren. Mehr erfahren.
Verstanden!