Kollinearität, Echt Statistik mit Excel

Z.B. In der folgenden Tabelle ist X1 Doppel X2. So X T X ist einzigartig. Excel erkennt dies und schafft ein Regressionsmodell entspricht, dass durch einfaches Eliminieren Spalte X2 erhalten.







Fig 1 - Kollinearität

Abbildung 1 - Kollinearität

Überwachung. In dem Fall, in dem k = 2, werden die Koeffizientenschätzungen durch die Fehlerquadratverfahren hergestellt sein aus

dann die Nenner der Koeffizienten null sind und so sind die Koeffizienten nicht definiert.

Überwachung. Leider kann man nicht immer auf einer Säule zählen eine exakte lineare Kombination der anderen. Selbst wenn eine Spalte fast eine lineare Kombination der anderen Spalten ist, kann eine instabile Situation führen. Wir definieren nun einige Metriken, die helfen, festzustellen, ob eine solche Situation wahrscheinlich ist.

Definition 1. Toleranz ist 1 -, wobei

das heißt, die Mehrfachkoeffizient zwischen xj und alle anderen unabhängigen Variablen. Der Varianz Inflationsfaktor (VIF) ist der Kehrwert der Toleranz.

Überwachung. Toleranz im Bereich von 0 bis 1. Wir wollen einen niedrigen Wert von VIF und einen hohen Wert der Toleranz. Ein Toleranzwert von weniger als 0,1 ist eine Alarmstufe, während Werte unter 0,2 besorgniserregend sein können.

Real Statistiken Excel-Funktionen. Die reale Statistik Ressource enthält die folgenden zwei Funktionen:

TOLERANCE (R1, j) = Tolerance der j-ten Variable für die Daten im Bereich R1; d 1 -

VIF (R1, j) = VIF der j-ten Variable für die Daten im Bereich R1

Überwachung. TOLERANCE (R1, j) = 1-RSquare (R1, j)

Beispiel 1. Überprüfen der Toleranz und VIF für die angezeigten Daten in der Abbildung 1 Multiple Correlation (das heißt, die Daten für die ersten 12 Staaten in Beispiel 1 von Multiple Correlation).

Der obere Teil von Figur 2 zeigt die Daten für die ersten 12 Staaten in Beispiel 1. Aus diesen Daten können wir die Toleranz und VIF für jede der 8 unabhängigen Variablen berechnen.

Kollinearität, Echt Statistik mit Excel







Abbildung 2 - Toleranz und VIF

Abbildung 2 - Toleranz und VIF

Zum Beispiel kann die Toleranz für Verbrechen berechnen wir müssen das Regressionsdaten-Analysewerkzeug für die Daten im Bereich von C4 auszuführen: J15 mit Ausnahme der E-Spalte als Eingang X im Vergleich zu den Daten in der Spalte E als Eingabe Y. (To do diese müssen wir zuerst die Daten kopiert werden, so dass die Eingabe X von zusammenhängenden Zellen besteht). Wir sehen dann, dass mehrere R-Platz = 0,518, und so Toleranz = 1-0,518 = 0,482 und VIF = 1 / 0,482 = 2,07.

(: J15,3 C4) = 0,482 und VIF (C4: J15,3) Alternativ können wir die zusätzliche Funktionen TOLERANZ verwenden = 2,07 (seit Crime ist der 3. Variable). Die Ergebnisse sind im unteren Teil von 1 gezeigt Beachten Sie, dass wir sollten über die Verkehrstoten und Universität Variablen betroffen sein, da ihre Toleranzwerte sind etwa 0,1.

In juristischer Hinsicht können Sie die Gefahr in multicollinearity erklären, wenn mehrere lineare Regression für prädiktiven Modellierungszwecken durchgeführt wird. Ich verstehe die Probleme mit Interpretation des Modell (seltsamen Parameter Koeffizienten und p-Werte), aber in Bezug auf Vorhersagen zu machen, was soll ich sonst bringt das wissen?

Im Wesentlichen bedeutet dies, dass eine der unabhängigen Variablen zum Modell nicht wirklich notwendig ist, weil seine Wirkung / Auswirkungen auf das Modell bereits von einigen der anderen Variablen erfasst wird. Diese Variable trägt nicht nichts extra zu den Vorhersagen und kann entfernt werden. Die Gefahr ist, mathematische, da es das Modell instabil in dem Sinn, dass eine kleine Änderung in den Werten dieser Variablen einen großen Einfluss auf das Modell haben.

Sie können fast daran denken wie 1 / (a-b). Wenn A und B nahezu gleich sind, dann wird der Wert von 1 / (a-b) sehr groß ist; wenn a = b ist, dann ist sein Wert nicht definiert (oder unendlich).

Wenn Sie einen echten multicollinearity haben, dann wird das „Problem“ Variable automatisch von Excel gelöscht werden. Das eigentliche Problem tritt auf, wenn Sie nicht (a ähnlich den Fall, in dem = b) genaue multicollinearity, aber in der Nähe multicollinearity (ähnlich den Fall, in dem ein in der Nähe b) verfügen. In diesem Fall abhängig von der Komplexität des Regressionsmodells, wird das „Problem“ Variable nicht beseitigt werden, und die oben beschriebene instabile Situation führen.

Große Erklärung - sehr klar, danke!

Ich versuchte Eingabe VER () und geben Sie mir 3.6.2 in der Zelle. (Das soll die Versionsnummer sein). Aber nach wie vor ist VIF nicht berechnet.

Meine Daten in in Bereich A1: K23 mit Kopfzeile (Zeile 1) und Titelspalte (Col A) und Formel ich verwende ist = VIF (B2: K23,2)

Kann ich eine Datei auf diese Nachricht anhängen? Ich bin in die Abschlussarbeit des MBA-Programms und diese Add-in könnte eine echte Hilfe für mich sein. Vielen Dank.

“Compiler-Fehler in verborgenem Modul“

und die Ergebnisse in Wertfehler. Bitte leiten, was ich falsch mache.

Vielen Dank.
Faseeh

Faseeh,
Versuchen Sie, die Formel = VER () in einer leeren Zelle in einem Arbeitsblatt eingeben. Wenn Sie eine Fehlermeldung erhalten, dann das Add-In wurde nicht richtig installiert. Wenn Sie die Versionsnummer (z 3.6.2) der Echt Statistik bekommen Add-in dann die Ursache verschieden ist, und wir werden das Problem auf eine andere Weise diagnostizieren müssen.
Charles

Lassen Sie eine Antwort Antworten abbrechen







In Verbindung stehende Artikel