Datenglättung in Excel

Statistiker haben in der Regel bei großen Datenmengen zu suchen und schwer zu sehen Muster. Manchmal ist eine allgemeine Trend deutet auf ein besonderes analytisches Werkzeug. Und manchmal, dass Werkzeug, obwohl statistisch stark, hilft nicht, die Statistiker in einer Erklärung zu kommen.







Datenglättung in Excel

Der offensichtliche allgemeine Trend ist, dass im Laufe der Jahre vergehen, werden mehr Homeruns schlagen. eine Regressionslinie Montage bestätigt diese Idee. Die gleichung

Home Runs = 24,325 * Jahr - 465395

ist eine hervorragende Anpassung an die Daten. Die Gleichung gibt einen R-Squared-Wert von 0,91, was darauf hinweist, dass ein lineares Modell gut die Beziehung zwischen Homeruns und Jahren beschreibt.

wichtige Dinge innerhalb Baseball nur eine Regressionslinie Einpassen beschönigt - Dinge, groß und klein, die eine Baseball-Saison bilden, eine Ära, eine Geschichte. Und Baseball hat viele dieser Dinge. Ziel ist es, um sie selbst zu offenbaren.

Das andere Extrem von der Regressionsgeraden ist, die Punkte zu verbinden. Das wäre nur ein paar Serpentinen geben, die wahrscheinlich nicht ein Jahrhundert der Geschichte beleuchten wird.

Explorative Datenanalyse (EDA) hilft, den Weg weisen. Eine EDA-Technik wird als Drei-Median Glättung. Für jeden Datenpunkt in einer Reihe, ersetzen, dass der Datenpunkt mit der Median von drei Zahlen: der Datenpunkt selbst, für den Datenpunkt, den ihn und den Datenpunkt vorausgeht, die folgt.

Warum der Median? Im Gegensatz zu dem Mittelwert, der Median nicht empfindlich auf extreme Werte, die einmal in eine Weile auftreten - wie ein Zick-Zack-oder. Der Effekt ist, um das Rauschen zu filtern und sinnvolle Höhen und Tiefen lassen.







Warum drei Zahlen? Wie die meisten alles in EDA, das ist nicht gepanzert. Für einige Arten von Daten, können Sie den Median wollen mehr Zahlen zu decken. Es liegt an den Intuitionen, Erfahrungen und Ideen des Analytikers.

Eine andere Technik, Hanning, ist eine laufende gewichtete Mittelwert. Sie ersetzen einen Datenpunkt mit der Summe von einem Viertel der vorherigen Datenpunkt plus der halben Datenpunkt plus ein Viertel der nächste Datenpunkt. Noch eine andere Technik, der Sprung Mittelwert.

In EDA, verwenden Sie nicht nur eine Technik, die auf einer Reihe von Daten. Oft beginnen Sie mit einem medianen glatt, es mehrmals wiederholen, und dann eine oder zwei andere versuchen.

Für die Daten in dem Streudiagramm, gelten die drei medianen glatt, wiederholen sie (das heißt, es auf die neuen geglätteten Daten), han die geglätteten Daten, und dann gilt der Sprung bedeuten. Auch hier ist keine Technik (oder die Reihenfolge der Techniken) richtig oder falsch ist. Sie anwenden, was denken Sie, sinnvolle Merkmale der Daten beleuchtet.

für all dies Teil eines Arbeitsblatts ist geschützt. Spalte A zeigt das Jahr, und Spalte B zeigt die Anzahl der Homeruns schlug in diesem Jahr in der American League. Die verbleibenden Spalten zeigen aufeinanderfolgende glättet der Daten.

Spalte C gilt die drei mittlere glatte Spalte B und Spalte D gilt die Drei-Median glatt Spalte C. Ein kurzer Blick auf die Zahlen zeigt, dass die Wiederholung nicht viel Unterschied gemacht hat. Spalte E gilt hanning auf Spalte D und Spalte F gilt die Skip-Säule E. bedeuten

Datenglättung in Excel

Sie können leicht die Wirkung jeder aufeinanderfolgenden Glättungstechnik auf der geglätteten Linie beobachten. Der Schlüssel ist, um einen Rechtsklick auf der Zeichnungsfläche und wählen Daten auswählen aus dem Pop-up-Menü. Klicken Sie auf den Namen der Datenreihe, die die geglättete Linie repräsentiert, bearbeiten Sie den Zellbereich der Serie um die Säule zu reflektieren, die die spezielle Glättungstechnik hält, und klicken Sie auf OK, um die Bearbeitung Dialogfelder zu schließen.

Und nun beginnt die Geschichte selbst zu offenbaren. Statt einer Regressionslinie, die Sie gerade erzählt, dass zu Hause läuft Anstieg als die Jahre vergehen, die Höhen und Tiefen stimulate denken, warum sie dort sind. Hier ist eine sehr gekürzte Version der Baseball-Geschichte im Einklang mit den Drehungen und Wendungen der geglätteten Linie.

Das niedrige flache Segment von 1901 bis 1920 bedeutet die „TotBallära,“ eine Zeit, wenn die Zusammensetzung eines Baseball gehemmt Bälle geschlagen aus weit genug gehen Homeruns zu werden.

Exploring und die Visualisierung von Daten stimuliert Gedanken über das, was die Muster freigibt ist die Herstellung der Exploration. Die Spekulation führt zu überprüfbaren Hypothesen, die Analyse führen.







In Verbindung stehende Artikel