Grundbegriffe der Korrelation, Echt Statistik mit Excel

Definition 1. Die Kovarianz zwischen zwei Probenzufallsvariablen x und y ist ein Maß für den linearen Zusammenhang zwischen den beiden Variablen, und wird definiert durch die Formel







Überwachung. Die Kovarianz ist ähnlich wie die Varianz der Ausnahme, dass die Kovarianz für zwei Variablen (x und y so) definiert ist, während die Varianz für nur eine Variable definiert ist. In der Tat, cov (x, x) = var (x).

Die Kovarianz kann für x und y aus den Paaren von Datenelementen als die Summe der Übereinstimmungen und Nichtübereinstimmungen betrachtet werden: eine Übereinstimmung auftritt, wenn die beiden Elemente in dem Paar auf der gleichen Seite der Mittel sind; eine Nichtübereinstimmung tritt auf, wenn ein Element in dem Paar über seinem Mittelwert ist und die andere unterhalb dessen Mittelwert ist.

Die Kovarianz ist positiv, wenn die Spiele der Mismatches aufwiegen und ist negativ, wenn die Nichtübereinstimmungen, die Spiele wiegen. Die Grße der Kovarianz in absolutem Wert zeigt die Intensität der linearen Beziehung zwischen x und y: je stärker der linearen Beziehung, je größer der Wert der Kovarianz wird. Die Grße der Kovarianz wird auch durch das Ausmaß des Datenelementes beeinflusst wird, und so, um den Skalierungsfaktor des Korrelationskoeffizient verwendet wird als skalenfreien metric lineare Beziehung zu eliminieren.

Definition 2. Der Korrelationskoeffizient zwischen zwei Proben Variablen x und y ist eine skalenfreie Maß für den linearen Zusammenhang zwischen den beiden Variablen, und wird durch die Formel

Bei Bedarf können wir r als rxy explizit schreiben kann, zeigen die beiden Variablen.

Wir verwenden auch den Begriff Bestimmtheitsmaß für r 2

Überwachung. So wie wir für die Varianz in den Maßnahmen der Variability sahen. die Kovarianz wie folgt berechnet werden

Als Ergebnis können wir berechnen auch die Korrelationskoeffizienten als

Überwachung. Wenn r nahe 1 ist, dann X und Y sind positiv korreliert. Eine positive lineare Korrelation bedeutet, dass hohe Werte von x mit hohen Werten von y und niedrige Werte von x zugeordnet sind, sind mit niedrigen Werten von y zugeordnet.

Wenn r Schließen auf -1 dann werden x und y negativ korreliert. Eine negative lineare Korrelation bedeutet, dass hohe Werte von x mit niedrigen Werten von y zugeordnet sind, und niedrige Werte von x sind mit hohen Werten von y zugeordnet.

Wenn r nahe bei 0 ist, ist es wenig lineare Beziehung zwischen x und y.

Überwachung. Wir haben für Datenabtastwerte Kovarianz und die Korrelationskoeffizienten definiert. Wir können auch Kovarianz- und Korrelationskoeffizienten für die Populationen, basierend auf ihrer Wahrscheinlichkeitsdichtefunktion (pdf) definieren.

Definition 3. Die Kovarianz zwischen zwei Zufallsvariablen x und y für eine Population mit diskreten oder kontinuierlichen pdf ist definiert durch

wobei E [] die Erwartungsfunktion wie in Erwartung beschrieben.

4. Die Definition (Pearson-Produkt-Moment) Korrelationskoeffizient für zwei Variablen x und y für eine Population mit diskreten oder kontinuierlichen pdf ist

Anwesen 4. Im Folgenden gilt sowohl für die Probe und Bevölkerungs Definitionen der Kovarianz:

Wenn x und y unabhängig ist dann cov (x, y) = 0

Eigenschaft 5: Die folgenden Bedingungen erfüllt sind sowohl für die Proben und der Bevölkerung:

Überwachung. Klicken Sie hier für weitere Eigenschaften der Kovarianz und Korrelation sowie die Beweise für die Eigenschaften, die oben angegeben.

Überwachung. Es stellt sich heraus, dass r nicht eine unverzerrte Schätzung von ρ ist. Eine relativ unverzerrte Schätzung von ρ 2 wird durch die eingestellten Koeffizienten der Bestimmung gegeben:

Zwar ist eine bessere Schätzung der Bevölkerungs Determinationskoeffizient, insbesondere für kleine Werte von n. für große Werte von n ist es einfach, dass ≈r 2. Beachten Sie auch, dass ≤ r 2. und während sehen kann negativ sein, diese relativ selten ist.

Eine noch unverzerrte Schätzung des Population Korrelationskoeffizienten mit normalverteilten Daten zugeordnet ist, ist gegeben durch

Excel-Funktionen: Excel die folgenden Funktionen in Bezug auf die Kovarianz und Korrelationskoeffizienten bestimmt:

KOVAR (R1, R2) = die Population Kovarianz zwischen den Daten in Arrays R1 und R2. Wenn R1 Daten x1 enthält, ..., xn>, R2 1 enthält, ..., yn>, = MITTELWERT (R1) und = MITTELWERT (R2), dann COVAR (R1, R2) den Wert

Dies ist das gleiche wie die in Definition 1 angegebene Formel mit n durch n ersetzt - 1.en Excel nicht eine Beispielversion der Kovarianz hat, obwohl dies die Formel berechnet werden kann:

CORREL (R1, R2) = der Korrelationskoeffizient der Daten in Arrays R1 und R2. Diese Funktion kann für die Probe und Bevölkerung beiden Versionen des Korrelationskoeffizienten verwendet werden. Beachten Sie, dass:

CORREL (R1, R2) = COVAR (R1. R2) / (STABWN (R1) * STABWN (R2)) = die Population Version des Korrelationskoeffizienten

CORREL (R1, R2) = n * COVAR (R1 R2.) / (STDEV (R1) * STDEV (R2) * (n - 1)), um die Probe-Version des Korrelationskoeffizient =

Excel bietet auch die folgenden, weniger nützlich, Funktionen:

PEARSON (R1, R2) = CORREL (R1, R2)

RSQ (R1, R2) = CORREL (R1, R2) ^ 2

Schließlich gibt es eine Korrelation der Datenanalyse-Tool, das wir in dem Beispiel 1 von Multiple Korrelation zeigen.

Echtstatistikfunktionen. Das reale Statistik Ressourcenpaket enthält folgende Funktionen:







RSQ_ADJ (R1, R2) = eingestellt Determinationskoeffizient für die Datensätze in den Bereichen R1 und R2 enthalten sind.

CORREL_ADJ (R1, R2) = für die Datensätze in den Bereichen R1 und R2 enthaltenen Korrelationskoeffizient ρest geschätzt.

RSQ_ADJ (r, n) = eingestellt Determinationskoeffizient der Probe entspricht

CORREL_ADJ (r, n) = Korrelationskoeffizient geschätzt ρest für eine Probe mit einer Größe n zu einer Probe Korrelationskoeffizienten entspricht.

Ich würde schätzen, jede mögliche Hilfe, danke!

Lieber Charles,
Ich bin mit 30 Probengröße und muß Beziehung mit individuellem Alter, Bildungsniveau mit ihrer Wahrnehmung auf mehrere Variablen testen, die likert Skala misst mit. (+ 1 stark auf -1 einverstanden Nicht einverstanden stark).
kann ich Pearson-Korrelationstest zur Messung der Korrelation zwischen zwei Gruppe dieser Probe verwendet werden:
zum Beispiel wird meine Hypothese:
ausgebildete Offiziere haben beste Wahl besten Mitarbeiter auszuwählen, oder
Erfahrungen der Offiziere haben positive Beziehung mit den besten Praktiken der Offiziere usw.

Ich habe Daten über Alter und Bildungsniveau als kategorische Daten und Wahrnehmung als Daten-Ranking.

hoffen, dass Sie meine Frage verstehen

Je mehr likert Waagen Sie haben, desto genauere Tests, die für kontinuierliche Daten ausgelegt sind. Mit 7 Skalen (z stark zustimmen, ziemlich stark zustimmen, milde stimmen, neutral, mild nicht einverstanden ist, ziemlich stark andere Meinung, nicht einverstanden ist stark), eine Dauertest im Allgemeinen sollte gut funktionieren. Es ist auch üblich, mit einem 5-Punkte-Skala einen solchen Test zu verwenden, obwohl es mehr Risiko. Noch besser wäre es würde einen beliebigen Wert zwischen -1 und +1 zuzuweisen.

Sie können sicher Pearsons Korrelation verwenden, um die Verbände zu messen, die Sie aufgeführt haben. Sie können auch prüfen, ob diese Korrelationskoeffizienten signifikant von Null verschieden sind. Vorausgesetzt, daß die Daten bei vernünftig normal verteilt dies entspricht einem t-Test durchzuführen. Siehe die Webseite Beziehung zwischen Korrelation und t-Test.

ist hapi wt d ur Tun arbeitet, pls auf Geschlecht und sozioökonomischen Status als Korrelate der Studierenden der akademischen Erfolgs ich arbeite. pls, welche statistisches Werkzeug soll ich die data..tanx im Voraus verwenden, um zu analysieren

Ich habe einen großen Datensatz. Ich versuche, die Korrelation eine Entfernung Variable und eine Wahrscheinlichkeitsvariable zu bestimmen. Der Abstand wird in Schritten von 5 (es ist 1000 Datenpunkte für jeden Entfernungsschritt). Die meisten der Wahrscheinlichkeiten gleich Null sind (

10%). Wenn ich Excel Correl run () auf den vollständigen Daten, gibt es sehr wenig Korrelation. Wenn I Correl () auf die mittlere Wahrscheinlichkeit für jede Strecke laufen, gibt es eine starke Korrelation. Bin ich mit Correl () in irgendeiner Weise, die die eingebauten Annahmen verletzt?

Es tut mir leid, dass ich nicht in der Lage, meine Frage zu erklären.
Für jede abhängige Variable sind 2 Faktoren einen Faktor 4 Ebenen hat und der andere Faktor hat 2 Ebenen. Ich kann den Faktor mit zwei Ebenen trennen, wenn ich Korrelation testen, aber ich mag die vier Ebene zusammen dem anderen Faktors halten, wenn ich Korrelation testen. Deshalb mag ich Korrelation für den Faktor 1 zu testen (a, b, c, d) mit einem Faktor 2 (a), dann findet Korrelation zwischen Faktor 1 (a, b, c, d) mit dem Faktor 2 (b). I Test-Korrelation zwischen zwei abhängigen Variablen. Ist das möglich?
Wenn ja, kann ich Mittelwert von Ebenen (a, b, c, d) wenn I Korrelationstest?
Ich hoffe, ich konnte meine Frage gut erklärt.
Danke vielmals.

Ich bin mir nicht sicher, warum Sie dies tun wollen, aber auf jeden Fall hier meine Antwort auf Ihre Frage basiert auf meinem Verständnis von dem, was ihr bittet.

Angenommen, die Daten für 4 Variablen x1, x2, x3 und x4 liegen im Bereich R1 (mit 4 Spalten, eine für jede Variable) enthalten ist und die Daten für eine andere Variable y in dem Bereich enthalten ist R2 (mit 1-Säule und der gleichen Anzahl von Zeilen wie R1). Die Korrelation von x1, x2, X3 und X4 mit y kann durch die Echt Statistik Formel Vervielfacher (R1, R2) berechnet werden. Dies ist im Wesentlichen der R-Wert in der multiplen linearen Regression.

Der Korrelationstest in Korrelation Testing beschrieben ist zwischen zwei Variablen x und y. Wenn Sie die x Abtastwerte als Mittelwert der entsprechenden Werte von x1, x2, x3 und x4 definieren, können Sie dann die Korrelation von x mit y testen. Es ist mir nicht klar, warum dies allerdings sinnvoll wäre.

Frage ist dann wh

Vielen Dank für Ihre prompte Antwort.

Wenn ich nicht Entitätsebene Informationen für alle Teilnehmer in der Kategorie Untergruppen kann ich wirklich Untergruppen zwischen den Kategorien korrelieren besitzen?

Obwohl ich die Standardabweichungen und Mittel der Kategorien und Untergruppen innerhalb der Kategorien besitzen, sehe ich nicht, wie ich Kovarianz berechnen kann. Wenn ich nicht Kovarianz berechnen kann, gibt es eine andere Art und Weise Korrelation zu berechnen?

Sie müssen deutlich mehr als nur die Mittelwerte und Standardabweichungen der Proben, die die Kovarianz zu berechnen, und wie Sie beobachtet, müssen Sie die Kovarianz kennen, um die Korrelation zu berechnen.
Charles

Haben Sie eine Korrelation Frage für Sie.

Hier ist meine Datenstruktur:
1. Mehr als fünfzig Kategorien mit den gleichen zwei Untergruppen pro Kategorie. Untergruppe 1 Pässe und Untergruppe 2 ausfallen.
2. Nicht alle Kategorien besitzen die gleiche Größe Untergruppen und nicht alle Kategorien sind gleich groß.
3. Die Daten für jede Kategorie sowohl Untergruppe enthält Mittel und Standardabweichungen sowie die Gesamtkategorie Mittelwert und Standardabweichung.
4. Die gleiche Teilnehmerpopulation wurde in allen Kategorien bewertet. Ein nicht in einer Kategorie ist auch in allen anderen Kategorien versagen.

Frage:
Mit Daten auf diese Weise formatiert ist es möglich, die Kategorien zu korrelieren?

Keine Erkenntnisse wären hilfreich.

John Gonzales sagt:

Was durch die Definition von Korrelationskoeffizienten verstanden wird“Der Korrelationskoeffizient zwischen zwei Proben Variablen x und y ist eine skalenfreie Maß für die linearen Zusammenhang zwischen den beiden Variablen, und wird durch die Formel gegeben“ spezifisch skalenfreien messen? Bitte antworten Sie so schnell wie möglich, da dies für ein Projekt aufgrund dieses Sonntags ist. Danke für deine Zeit. -Johannes G.

Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen den beiden Variablen, aber es ist nicht maßstabsfrei. Z.B. Wenn die Probe für die Variable x ist, und die Probe für die Variable y, dann ist die Kovarianz Koeffizient 1,08. Wenn stattdessen I um 10 jedes der Abtastelemente zu multiplizieren, wird die Kovarianz-Koeffizient 108, d.h. 10 x 10 = 100-mal höher ist. Auf diese Weise wird die Kovarianz Koeffizient nicht da Skala Angelegenheiten skalenfreien (hier Skala bedeutet die Größe der Eingangsdaten, nicht nur ihre Beziehung zueinander).

Der Korrelationskoeffizient ist ein Versuch, die Kovarianz Koeffizient schuppenfrei. Auf diese Weise nur die Beziehung zwischen den beiden Variablen erfasst. Im obigen Beispiel wird der Korrelationskoeffizient für die ursprünglichen Proben 0,419425 ist, die gleiche wie der Korrelationskoeffizient für die Proben, die größer sind 10-mal. Dies ist eine skalenfreie Maßnahme. In der Tat, egal, was die Größe der ursprünglichen Daten hat der Korrelationskoeffizient einen Wert zwischen -1 und +1. Je näher der Korrelationskoeffizient ist, desto besser (höher) die lineare Beziehung zwischen den beiden Variablen +1 (d.h. wenn x hoch ist, neigt dazu, y, zu hoch zu sein, und wenn X niedrig ist, neigt dazu, y, gering zu sein). Je näher der Korrelationskoeffizient auf 0 desto schlechter (niedriger) die lineare Beziehung zwischen den beiden Variablen.

Dasselbe gilt auch im negativen Bereich, nämlich je näher der Korrelationskoeffizient ist, desto besser (höher) die lineare Beziehung zwischen den beiden Variablen auf -1, mit der Ausnahme, dass dieses Mal des Verband die Inverse der positiven Assoziation ist (dh, wenn x hoch, y neigt dazu, gering zu sein, und wenn x niedrig ist, neigt dazu, hoch zu sein y).

Lassen Sie eine Antwort Antworten abbrechen







In Verbindung stehende Artikel