Moving Average Dieses Beispiel lehrt, wie Sie den gleitenden Durchschnitt einer Zeitreihe in Excel berechnen. Eine Bewegung wird verwendet, um Unregelmäßigkeiten (Spitzen und Täler) zu glätten, um Trends leicht zu erkennen. 1. Erstens, werfen wir einen Blick auf unsere Zeitreihe. 2. Klicken Sie auf der Registerkarte Daten auf Datenanalyse. Hinweis: Klicken Sie hier, um das Analyse-ToolPak-Add-In zu laden. 3. Wählen Sie Verschiebender Durchschnitt aus, und klicken Sie auf OK. 4. Klicken Sie im Feld Eingabebereich auf den Bereich B2: M2. 5. Klicken Sie in das Feld Intervall und geben Sie 6 ein. 6. Klicken Sie in das Feld Ausgabebereich und wählen Sie Zelle B3 aus. 8. Zeichnen Sie ein Diagramm dieser Werte. Erläuterung: Da wir das Intervall auf 6 setzen, ist der gleitende Durchschnitt der Durchschnitt der vorherigen 5 Datenpunkte und der aktuelle Datenpunkt. Als Ergebnis werden Spitzen und Täler geglättet. Die Grafik zeigt eine zunehmende Tendenz. Excel kann den gleitenden Durchschnitt für die ersten 5 Datenpunkte nicht berechnen, da nicht genügend frühere Datenpunkte vorhanden sind. 9. Wiederholen Sie die Schritte 2 bis 8 für Intervall 2 und Intervall 4. Fazit: Je größer das Intervall, desto mehr werden die Spitzen und Täler geglättet. Je kleiner das Intervall, desto näher sind die gleitenden Mittelwerte an den tatsächlichen Datenpunkten. Beispiel: Die folgenden Beispiele zeigen, wie XLMiner verwendet werden kann, um die Daten zu erkunden, um Trends und Saisonalitäten aufzudecken. Wählen Sie auf dem XLMiner-Farbband auf der Registerkarte Anwenden Ihres Modells die Option Hilfe - Beispiele aus. Dann Prognose / Data Mining Beispiele und öffnen Sie den Beispieldatensatz Income. xlsx. Dieser Datensatz enthält das durchschnittliche Einkommen der Steuerzahler nach Staat. Typischerweise werden die folgenden Schritte in einer Zeitreihenanalyse durchgeführt. 1. Die Daten werden in zwei Sätze unterteilt, wobei 60 der dem Trainingsset zugeordneten Daten und 40 dem Validierungssatz zugeordnet sind. 2. Explorative Techniken werden sowohl auf die Trainings - als auch auf die Validierungssets angewendet. Wenn die Ergebnisse synchron sind, dann kann das Modell passen. Wenn die ACF - und PACF-Diagramme dieselben sind, kann das gleiche Modell für beide Sätze verwendet werden. 3. Das Modell wird nach der Methode ARIMA (Autoregressive Integrated Moving Average) angepasst. 4. Wenn ein Modell nach der ARIMA-Methode passt, zeigt XLMiner die ACF - und PACF-Plots für Residuen an. Sind diese Plots im Band von UCL und LCL, so sind die Residuen zufällig und das Modell adäquat. 5. Wenn die Residuen nicht innerhalb der Banden liegen, gibt es einige Korrelationen, und das Modell sollte verbessert werden. Führen Sie zuerst eine Partition auf den Daten durch. Wählen Sie eine Zelle innerhalb des Datensatzes aus, und klicken Sie dann auf der Registerkarte Zeitreihen auf dem XLMiner ribboon auf Partition, um das Dialogfeld Time Series Partition Data zu öffnen. Wählen Sie unter der Liste Variablen Jahr aus, und klicken Sie auf gt, um in die Zeitvariable zu wechseln. Wählen Sie die restlichen Variablen in der Liste Variablen aus, und klicken Sie auf gt, um sie in die Variablen in der Liste Partitionsdaten aufzunehmen. Wählen Sie unter Partitionierungsoptionen festlegen die Option Datensätze angeben, um die Anzahl der Datensätze anzugeben, die den Trainings - und Validierungssätzen zugeordnet sind. Wählen Sie unter "Datensätze für die Partitionierung angeben" die Option Datensätze angeben, und geben Sie 50 für die Anzahl der Trainingssatzdatensätze und 21 für die Anzahl der Prüfsatzsätze ein. Wenn Prozentsätze unter Partitionierungsoptionen angeben ausgewählt ist, ordnet XLMiner jedem Satz die Anzahl der Datensätze zu, die vom Benutzer eingegeben oder automatisch von XLMiner unter Prozentsätze für Partitionierung angeben eingegeben werden. Klicken Sie auf OK. Das DataPartitionTS-Arbeitsblatt wird rechts neben dem Income-Arbeitsblatt eingefügt. In dem obigen Ausgang ist das Partitionierungsverfahren sequentiell (versus zufällig). Die ersten 50 Beobachtungen wurden dem Trainingsset zugewiesen und die verbleibenden 21 Beobachtungen wurden dem Validierungsset zugewiesen. Wählen Sie eine Zelle im DataPartitionTS-Arbeitsblatt und dann im XLMiner-Band auf der Registerkarte Zeitreihenfolge die Option ARIMA - Autokorrelationen aus, um das ACF-Dialogfeld anzuzeigen. Wählen Sie CA als Ausgewählte Variable aus, geben Sie für beide ACF-Parameter für Trainingsdaten und Validierungsdaten 10 ein. Das Plot-ACF-Diagramm ist standardmäßig ausgewählt. Klicken Sie auf OK. Das Arbeitsblatt ACFOutput wird nach dem DataPartitionTS-Arbeitsblatt eingefügt. Beachten Sie bei jedem Diagramm, dass die Autokorrelation mit zunehmender Anzahl von Verzögerungen abnimmt. Dies legt nahe, dass ein bestimmtes Muster in jeder Partition existiert. Da sich das Muster jedoch nicht wiederholt, kann davon ausgegangen werden, dass keine Saisonalität in den Daten enthalten ist. Darüber hinaus, da beide Diagramme ein ähnliches Muster zeigen, können wir das gleiche Modell sowohl für die Validierung und Trainingssets passen. Klicken Sie auf der Registerkarte Zeitreihenfolge auf das DataPartitionTS-Arbeitsblatt und auf das XLMiner-Band, und wählen Sie ARIMA - Partial Autocorrelations aus, um das Dialogfeld PACF zu öffnen. Wählen Sie CA aus der Variablen In Input Data aus, und klicken Sie dann auf gt, um die Variable in die Selected-Variable zu verschieben. Geben Sie 40 für maximale Verzögerung unter PACF-Parameter für Trainingsdaten und 15 für PACF-Parameter für Validierungsdaten ein. Das Plot-PACF-Diagramm ist standardmäßig ausgewählt. Klicken Sie auf OK. Das Arbeitsblatt ACFOutput wird direkt rechts neben dem DataPartitionTS-Arbeitsblatt eingefügt. Beide PACF-Plots zeigen ähnliche Muster sowohl in der Validierung und Trainingssets. Als Ergebnis können wir das gleiche Modell für beide Sätze verwenden. PACF-Ausgabe für Trainingsdaten PACF-Ausgabe für Validierungsdaten Die PACF-Funktion zeigt ein definiertes Muster, dh es gibt einen Trend in den Daten. Da sich das Muster jedoch nicht wiederholt, können wir schließen, dass die Daten keine Saisonalität zeigen. Sowohl die ACF-und PACF-Charts deuten darauf hin, dass ein bestimmtes Muster existiert, aber ohne jegliche Saisonalität. Beide Datensätze weisen dasselbe Verhalten sowohl in den Trainings - als auch in den Validierungssets auf, was nahelegt, dass das gleiche Modell für jeden geeignet ist. Jetzt sind wir bereit für das Modell. Das ARIMA-Modell akzeptiert drei Parameter: p - die Anzahl der autoregressiven Begriffe d - die Anzahl der nicht saisonalen Unterschiede und q - die Anzahl der verzögerten Fehler (gleitende Mittelwerte). Daran erinnern, dass die ACF-Plot zeigte keine Saisonalität in den Daten, was bedeutet, dass Autokorrelation ist fast statisch, abnehmend mit der Anzahl der Lags zunehmen. Dies schlägt die Einstellung q 0 vor, da es keine verzögerten Fehler zu sein scheint. Das PACF-Diagramm zeigte einen großen Wert für die erste Verzögerung, aber minimale Kurven für aufeinanderfolgende Verzögerungen. Diese vorgeschlagene Einstellung p 1. Bei den meisten Datensätzen ist die Einstellung d 1 ausreichend oder kann zumindest ein Ausgangspunkt sein. Klicken Sie auf der Registerkarte Zeitreihenfolge auf das DataPartitionTS-Arbeitsblatt und auf das XLMiner-Farbband, wählen Sie ARIMA-ARIMA-Modell aus, um das Dialogfeld Zeitreihen-ARIMA aufzurufen. Wählen Sie CA aus der Liste Variable In Input Data aus, und klicken Sie dann auf gt, um die Variable in das Feld Ausgewählte Variablen zu verschieben. Legen Sie unter Nicht saisonale Parameter Autoregressive (p) auf 1, Differenz (d) bis 1 und Moving Average (q) auf 0 fest. Klicken Sie auf Erweitert, um das Dialogfeld ARIMA - Erweiterte Optionen zu öffnen. Wählen Sie Angepasste Werte und Restwerte, Prognosen erstellen und Berichtsvorhersage-Konfidenzintervalle aus. Die Standard-Konfidenzniveau-Einstellung von 95 wird automatisch eingegeben. Varianz-Kovarianzmatrix ist standardmäßig ausgewählt. Klicken Sie im Dialogfeld ARIMA-Erweiterte Optionen und im Dialogfeld Zeitreihe - ARIMA auf OK. XLMiner berechnet und zeigt verschiedene Parameter und Diagramme in zwei Ausgabeblättern, ARIMAOutput und ARIMAResiduals an. Das ARIMAOutput-Arbeitsblatt enthält das unten gezeigte ARIMA-Modell. Auf diesem Arbeitsblatt hat XLMiner den konstanten Term und den AR1-Term für unser Modell berechnet. Dies sind die Konstanten und f1 Ausdrücke der Prognosegleichung. Siehe die folgende Ausgabe des Chi-Quadrat-Tests. Der kleine p-Wert für den konstanten Term (0,9704) und AR1 Term (0) deutet darauf hin, dass das Modell eine gute Anpassung an unsere Daten ist. Öffnen Sie das Arbeitsblatt ARIMAResiduals. In dieser Tabelle sind die tatsächlichen und eingestellten Werte und die daraus resultierenden Residuen aufgetragen. Wie in der Grafik unten gezeigt, passen die Werte von Actual und Forecasted ziemlich gut zusammen. Die Nützlichkeit des Modells in der Prognose wird davon abhängen, wie nah sich die tatsächlichen und prognostizierten Werte im Zeitdiagramm des Validierungssatzes befinden. Als nächstes sehen wir die ACF - und PACF-Diagramme für Fehler, die sich am unteren Rand des ARIMAOutput-Arbeitsblatts befinden. Alle Verzögerungen, außer Verzögerung 1, liegen klar innerhalb der UCL - und LCL-Bänder. Dies zeigt, dass die Residuen zufällig sind und nicht korreliert sind, was der erste Hinweis ist, dass die Modellparameter für diese Daten ausreichend sind. Siehe Tabelle Vorhersage auf dem ARIMAOutput-Arbeitsblatt. Die Tabelle zeigt den aktuellen und prognostizierten Wert. Die unteren und oberen Werte repräsentieren die untere und obere Grenze des Konfidenzintervalls. Es besteht die Wahrscheinlichkeit, dass der prognostizierte Wert in diesen Bereich fällt. Der Zeitplan rechts zeigt an, wie das Modell, das wir mit dem Training Set bestückten und auf dem Validierungs-Set durchgeführt haben. Die tatsächlichen und prognostizierten Werte sind ziemlich nahe, was bestätigt, dass unser Modell gut für die Prognose sein sollte. Um die Werte unter der unteren und oberen Spalte in demselben Diagramm darzustellen, wählen Sie den Graphen aus, und wählen Sie dann auf dem Excel-Farbband die Option Design - Daten auswählen, um das Dialogfeld Datenquelle auswählen zu öffnen. Geben Sie für den Diagrammdatenbereich ARIMAOutputB56: G77 ein. Dann deaktivieren Sie Fehler unter Legendeneinträgen. Klicken Sie auf OK. Dieses Diagramm zeigt, dass die tatsächlichen und prognostizierten Werte innerhalb der unteren und oberen 95 Konfidenzniveaubanden liegen. Obwohl die tatsächlichen Werte ein wenig schwanken, fallen diese Werte in die Mitte des Bereichs. Aus der ARIMA-Ausgabe können wir schließen, dass unser Modell unter Verwendung von Parametern (1, 1, 0) die Daten adäquat passt. Zeitreihenanalyse und ihre Anwendungen: Mit R Beispiele R-Zeitreihen schnelle Lösung Die Seite verwendet JavaScript für die Syntax Hervorheben. Es ist nicht notwendig, um es einzuschalten, aber der Code wird schwerer zu lesen. Dies ist nur ein kurzer Spaziergang nach unten Zeit seRies Spur. Mein Rat ist, öffnen Sie R und spielen zusammen mit dem Tutorial. Hoffentlich haben Sie R installiert und gefunden das Symbol auf Ihrem Desktop, die wie ein R. gut aussieht, ist es ein R. Wenn youre mit Linux, dann aufhören, weil es nicht da. Öffnen Sie einfach ein Terminal und geben Sie R ein (oder installieren Sie R Studio.) Wenn Sie mehr auf Zeitreihengrafiken möchten, insbesondere mit ggplot2. Finden Sie in der Grafik Quick Fix. Die schnelle Lösung soll Sie aussetzen, um grundlegende R-Zeitreihen-Fähigkeiten, und bewertet Spaß für Menschen im Alter von 8 bis 80. Dies ist keine Lehre in Zeitreihe-Analyse, aber es ist tsaEZ. Eine kostenlose und einfache Einführung in die Zeitreihenanalyse. Loz Babyschritte. Ihre erste R-Sitzung. Holen Sie sich bequem, dann starten Sie sie und versuchen Sie einige einfache Ergänzung: Ok, jetzt bist du ein Experte verwenden R. Wollte jetzt astsa: Nun, da du geladen bist, können wir anfangen. Lass uns gehen Erstens, gut spielen mit dem Johnson amp Johnson Datensatz. Sein eingeschlossen in astsa als jj. Dass dynOmite Zeichen von Good Times. Zuerst betrachten Sie es. Und Sie sehen, dass jj eine Ansammlung von 84 Zahlen ist, die ein Zeitreihenobjekt genannt werden. So sehen / entfernen Sie Ihre Objekte: Wenn Sie ein Matlab (oder ähnlich) Benutzer sind, können Sie denken, dass jj ein 84 mal 1 Vektor ist, aber sein nicht. Es hat Ordnung und Länge, aber keine Dimensionen (keine Zeilen, keine Spalten). R ruft diese Art von Objekten Vektoren, so dass Sie vorsichtig sein müssen. In R haben Matrizen Dimensionen, aber Vektoren nicht - sie einfach Art baumeln über im Cyberspace. Nun können wir ein monatliches Zeitreihenobjekt erstellen, das im Juni des Jahres 2293 beginnt. Wir betreten den Vortex. Beachten Sie, dass die Daten von Johnson und Johnson vierteljährliche Erträge sind. Die Zeitreihe zardoz ist monatlich, daher hat sie Frequenz12. Sie erhalten auch einige nützliche Dinge mit dem ts-Objekt, zum Beispiel: Jetzt versuchen Sie eine Handlung der Johnson Johnson Daten: Die Grafik gezeigt, ist ein wenig mehr Phantasie, als der Code geben wird. Weitere Informationen finden Sie auf der Seite Grafiken Quick Fix. Dies gilt für den Rest der Grundstücke, die Sie hier sehen werden. Versuchen Sie diese und sehen, was passiert: und während Sie hier, überprüfen Sie plot. ts und ts. plot. Beachten Sie, dass, wenn Ihre Daten ein Zeitreihenobjekt sind, plot () den Trick ausführen wird (für ein einfaches Zeitdiagramm). Andernfalls wird plot. ts () die Grafik in ein Zeitdiagramm zwingen. Wie über das Filtern / Glätten der Johnson-amp-Johnson-Serie mit einem zweiseitigen gleitenden Durchschnitt Lets versuchen dies: fjj (t) 8539 jj (t-2) frac14 jj (t-1) frac14 jj (t) frac14 jj (t1) 8539 Jj (t2) und gut fügen Sie eine lowess (lowess - Sie kennen die Routine) fit for fun. Lässt Unterschied die protokollierten Daten und nennen es dljj. Dann gut spielen mit dljj. Nun ein Histogramm und ein Q-Q-Diagramm, eine über die andere (aber auf eine schöne Art und Weise): Lets überprüfen Sie die Korrelationsstruktur von dljj mit verschiedenen Techniken. Zuerst betrachten wir ein Gitter von Streudiagrammen von dljj (t) versus verzögerten Werten. Die Linien sind eine Lowess-Passform und die Probe acf ist blau in der Box. Nun können wir einen Blick auf die ACF und PACF von dljj. Beachten Sie, dass die LAG-Achse in Häufigkeit ist. So dass 1,2,3,4,5 den Verzögerungen 4,8,12,16,20 entsprechen, da Frequenz4 hier vorliegt. Wenn Sie diese Art der Beschriftung nicht mögen, können Sie dljj in irgendeinem der oben durch ts (dljj, freq1) z. B. Acf (ts (dljj, freq1), 20) Bewegen Sie sich, versuchen wir eine strukturelle Zerlegung von log (jj) Trend Saison Fehler mit lowess. Wenn Sie die Residuen, z. B. theyre in dogtime. series, inspizieren wollen, 3. Die dritte Spalte der resultierenden Serie (die Saison - und Trendkomponenten sind in Spalten 1 und 2). Schauen Sie sich die ACF der Residuen, acf (dogtime. series, 3) die Residuen arent weiß-nicht einmal schließen. Sie können ein wenig (sehr wenig) besser mit einem lokalen saisonalen Fenster, im Gegensatz zu den globalen verwendet durch die Angabe von pro. Geben Sie stl für Details ein. Theres auch etwas, das StructTS genannt wird, das parametrische strukturelle Modelle passen wird. Wir verwenden diese Funktionen nicht im Text, wenn wir Strukturmodellierung in Kapitel 6 vorstellen, weil wir es vorziehen, unsere eigenen Programme zu verwenden. Loz Dies ist eine gute Zeit zu erklären. In der obigen ist Hund ein Objekt mit einer Menge von Dingen (Fachausdruck). Wenn Sie Hund eingeben. Youll sehen Sie die Komponenten, und wenn Sie schreiben Zusammenfassung (Hund) youll erhalten Sie eine kleine Zusammenfassung der Ergebnisse. Eine der Komponenten des Hundes ist time. series. Die die daraus resultierende Serie (Saison, Trend, Rest) enthält. Um diese Komponente des Objekthundes zu sehen. Sie Typ dogtime. series (und youll siehe 3-Serie, die letzte enthält die Residuen). Und das ist die Geschichte von. Youll sehen Sie mehr Beispiele, während wir entlang bewegen. Und nun gut tun ein Problem aus Kapitel 2. Wurden an die Regression log (jj) betatime alpha 1 Q1 alpha 2 Q2 alpha 3 Q3 alpha 4 Q4 epsilon, wo Qi ist ein Indikator für das Viertel i 1,2,3,4 passen . Dann die Residuen gut untersuchen. Sie können die Modellmatrix (mit den Dummy-Variablen) auf diese Weise anzeigen: Prüfen Sie nun, was passiert ist. Betrachten Sie ein Diagramm der Beobachtungen und ihrer angepassten Werte: was zeigt, dass ein Plot der Daten mit dem überlagerten Fit den Cyberspace nicht wert ist. Aber ein Plot der Residuen und der ACF der Residuen ist sein Gewicht in Joules wert: Werden diese Residuen weiß aussehen Ignorieren Sie die 0-Lag-Korrelation, seine immer 1. Hinweis: Die Antwort ist NEIN. So dass die Regression oben ist nugatory. Also, was ist das Heilmittel Sorry, youll haben, um die Klasse zu nehmen, weil dies nicht eine Lehre in Zeitreihen ist. Ich habe dich an der Spitze gewarnt. Sie müssen vorsichtig sein, wenn Sie eine Zeitreihe auf verzögerte Komponenten eines anderen mit lm () regressieren. Es gibt ein Paket namens dynlm, das es einfach macht, hintergründige Regressionen einzupassen, und Ill diskutieren, dass direkt nach diesem Beispiel. Wenn Sie lm () verwenden. Dann, was Sie tun müssen, ist die Reihe zusammen mit ts. intersect binden. Wenn Sie nicht die Reihe zusammen binden, werden sie nicht richtig ausgerichtet. Heres ein Beispiel regressive wöchentliche Herz-Kreislauf-Mortalität (cmort) auf Partikel-Verschmutzung (Teil) zum derzeitigen Wert und lag vier Wochen (etwa einen Monat). Einzelheiten zum Datensatz finden Sie in Kapitel 2. Achten Sie darauf, dass astsa geladen ist. Hinweis: Es war nicht notwendig, die Verzögerung (Teil, -4) auf part4 umzubenennen. Es ist nur ein Beispiel für das, was Sie tun können. Eine Alternative dazu ist das Paket dynlm, das natürlich installiert werden muss (wie bei astsa dort oben). Nachdem das Paket installiert ist, können Sie das vorherige Beispiel wie folgt ausführen: Nun, seine Zeit zu simulieren. Das Arbeitspferd für ARIMA-Simulationen ist arima. sim (). Hier sind einige Beispiele keine Ausgabe wird hier gezeigt, so dass Sie auf eigene Faust. Mit astsa seine leicht zu einem ARIMA-Modell passen: Vielleicht fragen Sie sich über den Unterschied zwischen aic und AIC oben. Dafür müssen Sie den Text lesen oder einfach keine Sorgen darüber, weil es nicht wert ruiniert Ihren Tag darüber nachzudenken. Und ja, die Reste sehen weiß aus. Wenn Sie ARIMA Prognose machen wollen, ist sarima. for in astsa enthalten. Und nun für einige Regression mit autokorrelierten Fehlern. Wäre das Modell M t alpha betat gammaP t e t, wo M t und P t die Mortalität (cmort) und Partikel (Teil-) Serie sind, und e t autokorrelierter Fehler. Zuerst eine OLS passen und überprüfen Sie die Residuen: Jetzt passen das Modell Die Restanalyse (nicht gezeigt) sieht perfekt. Heres ein ARMAX-Modell, M t beta 0 phi 1 M t-1 phi 2 M t-2 beta 1 t beta 2 T t-1 beta 3 P t beta 4 P t-4 e t. Wobei e t möglicherweise autokorreliert wird. Zuerst versuchen wir und ARMAX (p2, q0), dann schauen Sie sich die Residuen und realisieren theres keine Korrelation links, so getan wurden. Schließlich eine Spektralanalyse schnell: Das ist alles für jetzt. Wenn Sie mehr über Zeitreihen-Grafiken erfahren möchten, finden Sie auf der Seite Grafiken Quick Fix.
No comments:
Post a Comment