Kunden-Analytics und Schulungs- und Validierungszeiträume

Ein komplexer und oft wesentlicher Ansatz für die Zeitreihenanalyse besteht darin, Ihre Kundendaten in Schulungs- und Validierungszeiträume zu unterteilen. Im Trainingszeitraum erstellen Sie eine Regressionsgleichung für den ersten Datenabschnitt (ungefähr zwei Drittel bis drei Viertel Ihrer Daten).

Dann wenden Sie die Regressionsgleichung auf den späteren Teil Ihrer Daten im Validierungszeitraum an, um zu sehen, wie gut die früheren Daten die späteren Daten tatsächlich vorhersagen.

Mit den Teilnehmerdaten könnten Sie die ersten 20 Monate (Januar 2012 bis August 2013) als Trainingszeitraum und September 2013 bis Februar 2014 als Validierungszeitraum verwenden. Bei diesem Ansatz wird die Gleichung anhand bereits vorhandener Daten getestet. Dies ist so nahe wie möglich, um zu testen, wie gut sich eine Vorhersage verhält, wenn neue Daten eingehen.

Die Regressionsgleichung für die ersten 20 Monate lautet:

Abonnenten = 2033. 9e 0. 0269 x

Das r ² = 0. 9979, das eine gute Übereinstimmung für die Exponentiallinie zeigt. Sie können diese Regressionsgleichung dann verwenden, um zu sehen, wie gut sie die letzten sechs Monate des Datensatzes vorhersagt. Die letzten sechs Monate sind 21 bis 26. Die Abbildung zeigt die vorhergesagten und tatsächlichen Werte für August 2013 bis Februar 2014, bezeichnet als Validierung (in der Spalte "Periode").

Um zu beurteilen, wie gut diese Vorhersage tatsächlich ist, wurden zwei zusätzliche Spalten erstellt. Der erste ist der Rohfehler von der tatsächlichen Zahl zur Vorhersage. Zum Beispiel war die Vorhersage im September 2013 von 5 Abonnenten kurz. Im Februar 2014 war es um 28 kurz. Diese Art von groben Fehlern kann selbst verständlich sein, wenn Sie mit den Kundendaten vertraut sind, mit denen Sie arbeiten.

Wenn Sie kommunizieren, wie viel Fehler Ihre vorhergesagten Werte haben, ist es oft einfacher, in Form von prozentualen Fehlern zu sprechen.

Der mittlere absolute prozentuale Fehler (MAPE) kann für die Beteiligten etwas verständlicher sein. Es wird berechnet, indem der absolute Wert der Differenz zwischen den tatsächlichen und vorhergesagten Werten ermittelt wird und dann diese Differenz durch den tatsächlichen Wert geteilt wird, um den absoluten prozentualen Fehler zu berechnen. Dies wird dann für jeden Wert gemittelt.

Die APE-Spalte zeigt den absoluten prozentualen Fehler an. Zum Beispiel für Januar 2013 prognostiziert die Regressionsgleichung 2 885 Abonnenten; die tatsächliche Anzahl der Abonnenten betrug 2 844, was bedeutet, dass die Gleichung von 41 Abonnenten überbewertet wurde.

Die Anwendung der Excel-Formel für den absoluten Prozentfehler (APE) erzeugt einen Fehler von 1.4%:

= ABS (2885-2844) / 2885 =. 014 oder 1. 4%

Die MAPE für die Trainingsperiode ist. 589%. Die MAPE für die Gültigkeitsdauer ist. 870%, das ist ein bisschen höher, aber beide sind immer noch unter 1%.

Schließlich sind die Vorhersagen für März, April und Mai 2014 4, 205, 4, 320 und 4, 437.

= EXP (0. 0269 * 27) * 2033. 9 = 4205

= EXP (0. 0269 * 28) * 2033. 9 = 4320

= EXP (0. 0269 * 29) * 2033. 9 = 4437

Es gibt eine Reihe ausgefeilterer Techniken, mit denen genauere Modelle erstellt werden können. unter Berücksichtigung von Saisonalität und Autokorrelation und anschließender Glättung der Daten zur besseren Interpretation von Mustern. Software wie JMP und Minitab haben diese Funktionen eingebaut.

Die Vorhersage der Zukunft ist immer riskant, weil Sie davon ausgehen, dass die Zukunft ähnliche Muster wie die Vergangenheit haben wird. In den meisten Fällen ist dies ein hervorragender Indikator für das Verhalten der Kunden. Ungewöhnliche Ereignisse (empörte Kunden in sozialen Medien, ein Terroranschlag oder eine Rezession), die unberechenbar sind, können jedoch die Genauigkeit Ihrer Vorhersagen erheblich beeinträchtigen. Behandle Vorhersagen als Leitfaden, nicht als Absolutwert.