Fehlende Daten, SPSS-Learning-Module - IDRE Statistik

1. Einleitung

Dieses Modul wird fehlende Daten in SPSS erforschen, auf numerische fehlenden Daten konzentrieren. Wir beschreiben, wie Daten in Ihren Rohdatendateien, um anzuzeigen, fehlen, wie fehlende Daten in SPSS Verfahren gehandhabt werden und wie in einer SPSS Datentransformationen fehlende Daten zu verarbeiten. Es gibt zwei Arten von Werten in SPSS fehlt: 1) System fehlende Werte und 2) benutzerdefinierte fehlende Werte. Wir werden das Lesen von Daten enthalten, jede Art von fehlendem Wert demonstrieren. Beide Datensätze sind identisch mit Ausnahme der Codierung der fehlenden Werte. Für beide Datensätze an, dass wir eine Reaktionszeit-Studie mit 6 Probanden haben, und die Probanden Reaktionszeit wurde dreimal gemessen.







2. System fehlende Werte

Werte sind Werte als fehlend von SPSS automatisch erkannt. Sie könnten, dass in den folgenden Daten leer sind einige der Reaktionszeiten feststellen. Das ist die akzeptierte Wege-System fehlende Daten in dem Datensatz von hindeutet. Zum Beispiel für ein Objekt 2, ist der zweite Versuch leer. Die einzige Möglichkeit, Rohdaten mit Feldern leer gelassen ist mit fester Feldeingabe zu lesen. Die Werte leer gelassen werden automatisch als systemdefinierte fehlende Werte behandelt.

Es ist möglich, den fehlenden Platz mit einem einzigen Punkt auf dem Gebiet zu halten, aber wenn Sie tun, werden Sie eine Warnmeldung jedes Mal SPSS trifft einen dieser Werte erhalten. Die sich ergebende Variable wird mit system fehlenden Werten codiert.

3. Benutzerdefinierte fehlende Werte

Lassen Sie uns untersuchen, wie SPSS fehlenden Daten in der Analyse Befehle verarbeitet.

4. Wie SPSS fehlende Daten in der Analyse Befehlen behandelt

Als allgemeine Regel gilt, Befehle SPSS Analyse, die Berechnungen durchführen Griffe fehlende Daten durch die fehlende Werte weggelassen. (Wir sagen Analyse, um anzuzeigen, Befehle, dass wir keine Befehle wie Art Adressierung). Die Art und Weise, dass fehlende Werte ausgeschlossen werden, ist nicht immer gleich unter SPSS-Befehle, also lasst uns uns einige Beispiele an. Verwenden Sie zuerst die deskriptiven auf unserer Datendatei Befehl und sieht, wie dieser Befehl die fehlende Werte behandelt.

Wie Sie in der Ausgabe unten zu sehen, die Mittel mit vier Beobachtungen für Trial1 und Trial2 und sechs Beobachtungen deskriptive für trial3 berechnet. Kurz gesagt, verwendet deskriptive alle gültigen Daten und ausgeführt, um die Berechnungen auf alle verfügbaren Daten. Dies galt auch für die nächsten drei Variablen enthalten, benutzerdefiniert fehlende Werte.

Es ist möglich, dass Sie die gültigen Prozent möchten auf die Gesamtzahl der Werte berechnet werden, und berichten auch den Prozentsatz in der Tabelle fehlt selbst. Sie können dies fordern die fehlenden = subcommand auf dem Freq Befehl umfassen. Dies wird im Folgenden für Trial1 und trialr1 gezeigt.

Wie Sie sehen, sind nun die gültigen Prozentsätze aus der Gesamtzahl der Beobachtungen berechnet, und der Prozentsatz fehlt, sind rechts in der Tabelle als auch für die Variable Trial1 die benutzerdefiniert fehlende Werte enthalten gezeigt. Für trialr1. die systemdefinierte fehlende Werte nicht enthalten berechnen Prozent sogar mit fehlenden = angegeben verwendet.

Die Crosstabs Befehl enthält nur gültig (nicht fehlende Daten) in seinen Tabellen. Fälle einen fehlenden Wert für auch nur eine der Variablen enthalten, werden nicht in der Tabelle enthalten. Beachten Sie, dass die Prozentsätze nur auf der Grundlage der nicht-fehlenden Fälle berechnet werden. Dies gilt für beide Arten von fehlenden Werten.

Es ist möglich, dass Sie die fehlenden Werte in den Tabellen enthalten interessiert sein könnte. Dies gilt insbesondere, wenn Sie Crosstabs verwenden, um Ihre Transformationen zu überprüfen. Sie können dies fordern die fehlenden = mit subcommand auf dem Kreuztabellen-Befehl enthalten. Dies wird im Folgenden für Trial1 und trialr1 gezeigt. Auch hier werden Sie nur erfolgreich sein, für benutzerdefiniert fehlende Werte.

Die benutzerdefiniert fehlenden Werte sind in der Tabelle für das Variable Trial1 enthalten. Für trialr1. die systemdefinierte fehlende Werte werden nicht in der Tabelle sogar mit fehlenden = umfassen angegeben enthalten. Es gibt keine Unterbefehle, die die Aufnahme von systemdefinierte fehlende Werte in der Tabelle Crosstabs ermöglichen.

Es gibt keine Möglichkeit, ein System fehlt Wert erscheint in einem Kreuztabelle Tisch zu bekommen. Die nächste wird kommen Sie ist das System fehlenden Wert auf einen benutzerdefiniert fehlenden Wert zu ändern. Dies kann mit einem Befehl recode erreicht werden, wie es weiter unten. Das Schlüsselwort sysmis kann auf dem Recode-Befehl verwendet werden, und es steht für den systemdefinierten fehlenden Wert.

Schauen wir uns an, wie korr fehlenden Daten verarbeitet. Wir würden erwarten, dass es die Berechnungen auf Grundlage der verfügbaren Daten basieren tun würde, und lassen Sie die fehlende Werte für jedes Paar von Variablen. Da zwei Variablen notwendig sind, jede Korrelation zu berechnen. Hier ist ein Beispiel-Programm.

Die Ausgabe dieses Befehls ist nachfolgend gezeigt. Beachten Sie, wie die fehlenden Werte wurden ausgeschlossen. Für jedes Paar von Variablen verwendet corr die Anzahl der Paare, die gültige Daten hat. Für das Paar von Trial1 und Trial2 gebildet. es gab drei Paare mit gültigen Daten. Für die Paarung von Trial1 und trial3 gab es vier gültige Paare, ebenso gab es vier gültige Paare für Trial2 und trial3. Da dies alle gültigen Datenpaare verwendet, dies wird oft paarweise Löschung von fehlenden Daten genannt.







Es ist möglich, zu spezifizieren, dass die Korrelationen nur auf Beobachtungen ausführen, die für alle Variablen auf dem var subcommand aufgelistet vollständige Daten hatte. Sie könnten die Korrelationen der Reaktionszeiten nur für die Beobachtungen möchten, die auf alle Prüfungen nicht fehlenden Daten hatte. Dies wird listwise Löschen von fehlenden Daten genannt was bedeutet, dass, wenn eine der Variablen fehlen, wird die gesamte Beobachtung aus der Analyse weggelassen. Sie können listwise Deletion innerhalb korr mit der mssing = listwise subcommand verlangen, wie im Beispiel unten gezeigt.

Wie Sie unten in den Ergebnissen zu sehen, ist die N für all einfachen Statistiken gleich, 3, die für Trial1 auf die Anzahl der Fälle mit kompletten nicht-fehlenden Daten entspricht. Trial2 und trial3. Da die N die gleiche für alle der Korrelationen (d 3) ist, wird die N nicht den Korrelationen in SPSS 7.5 und höher angezeigt zusammen.

Es ist wichtig zu verstehen, wie SPSS-Befehle verwendet, um Daten zu analysieren, fehlende Daten zu behandeln. Um zu wissen, wie ein Befehl fehlende Daten behandelt, sollten Sie die SPSS Anleitung. Hier ein kurzer Überblick darüber, wie einige gemeinsamen SPSS Verfahren fehlende Daten behandeln.

6. Fehlende Angaben in Zuweisungsausdrücke

Die Liste unten zeigt, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Die Variable avg basiert auf den Variablen trial1trial2 und trial3. und die Variable avgr basiert auf der Variablen trialr1trialr2 und trialr3. Wenn eine der Komponentenvariablen fehlte, wurde der Wert für avg oder avgr zu fehlen gesetzt. Dies bedeutet, dass sowohl für Beobachtungen fehlten 2, 3 und 4.

Beide systemdefinierten fehlenden und benutzerdefiniert fehlende Werte ergeben die gleichen Ergebnisse.

In der Regel ergeben, Berechnungen mit fehlenden Werten fehlende Werte, wie unten gezeigt.

2 + 2 4 Ausbeuten
2 +. Erträge.
2/2 ergibt 1
. / 2 Ausbeuten.
2 * 3 6 Ausbeuten
2 *. Erträge.

Jedes Mal, wenn Sie addieren, subtrahieren, multiplizieren dividieren usw. Werte, die fehlenden Daten beinhalten, ist das Ergebnis in der Regel system fehlt. Eine Ausnahme ist ein Wert, der unabhängig von einem des Wert definiert ist, beispielsweise Null, dividiert durch Null fehlt.

In unserer Reaktionszeit Experiment wird die durchschnittliche Reaktionszeit avg für mich aus sechs Fällen fehlt. Wir könnten versuchen, nur die Daten im Durchschnitt für die nicht-fehlenden Studien durch die mittlere Funktion wie im Beispiel unten gezeigt.

Die Ergebnisse unten zeigen, die jetzt enthält den Durchschnitt der nicht-fehlenden Studien avg, auch wenn es nur eine ist.

Hätte es eine große Anzahl von Studien gewesen, 50 Studien sagen, dann wäre es ärgerlich sein zu müssen, geben Sie
avg = Mittelwert (Trial1, Trial2, trial3 .... trial50)
Hier ist eine Verknüpfung, die Sie in einer solchen Situation nutzen könnten
avg = mittlere (Trial1 bis trial50)
vorausgesetzt, dass die Studie Variablen in der Datei zusammenhängend ist.

Auch wenn wir die Summe der Zeiten anstelle der mittleren, dann könnten wir nur verwenden, um die Summenfunktion anstatt die mittlere Funktion erhalten wollten. Die Syntax der Summenfunktion ist wie die mittlere Funktion, aber es gibt die Summe der nicht-fehlenden Werte.

Schließlich können Sie die ngültige Funktion verwenden, um die Anzahl der nicht-fehlender Werte in einer Liste von Variablen, um zu bestimmen, wie unten dargestellt.

Wie Sie unten sehen, Bemerkungen 1, 5 und 6 hatten drei gültige Werte, Beobachtungen 2 und 3 hatten zwei gültige Werte und Beobachtung 4 hatte nur einen gültigen Wert. Diese Ergebnisse sind unabhängig von der Art der fehlenden Wert.

Sie könnten mit der variablen avg für die Beobachtung 4 unwohl fühlen, da es gar nicht wirklich ein Durchschnitt. Wir können die mean.n Form der Funktion verwenden, um die Anzahl der gültigen Werte zu steuern, benötigt einen Mittelwert zu berechnen.

Die mean.2 Funktion erfordert mindestens zwei gültige Werte für einen Mittelwert berechnet werden. In der Ausgabe unten sehen Sie, dass jetzt avg die durchschnittliche Reaktionszeit für die nicht-fehlende Werte enthalten, mit Ausnahme der Beobachtung 4, wobei der Wert der fehlenden zugeordnet ist, weil es nur ein gültige Beobachtung hatte.

7. Fehlende Werte in Umkodierung Befehle

Angenommen, Sie ein Dummy-Variable von Trial1 mit einem Trennwert von 2. schaffen wollten wir das verwenden können, wenn der Befehl die Variable hit1 zu erstellen. Das gleiche gilt für hirt1 von trialr1 zu schaffen.

Die Frequenzen zeigt das Ergebnis dieser Transformationen, wie sie die fehlenden Werte beeinflussen. Beide systemdefinierten fehlenden und benutzerdefiniert fehlende Werte ergeben korrekte Klassifizierung.

Nun nehmen wir Ihnen ein Dummy-Variable von Trial1 in Kombination mit Trial2 mit einem Trennwert von zwei für jeden schaffen wollten. Wir können das, wenn Befehl die Variable hit12 erstellen. Das gleiche gilt für die Erstellung von hirt12 von trialr1 und trialr2.

Die Frequenzen und die Liste zeigt das Ergebnis dieser Transformationen, wie sie die fehlenden Werte beeinflussen. Beide systemdefinierten fehlenden und benutzerdefinierte führen fehlende Werte in der gleichen Ausgabe, so dass nur der Ausgang für benutzerdefinierte fehlende Werte werden angezeigt.

Es gibt nur einen fehlenden Wert in der erstellten Variable hit12. aber wir wissen, dass es allein mindestens zwei fehlende Werte für Trial1 sind. Wenn SPSS die Logik auf einer einzige Variablen basierte lösen kann, dann wird es. Da nicht (Trial1> 2 und Trial2> 2) gilt, wenn eine der beiden Bedingungen falsch ist, kann dieses Problem gelöst werden. Dies ist das Ergebnis, dass die meisten Menschen es vorziehen würden.

Wenn Sie es vorziehen, fehlt das Ergebnis zu haben, wenn eine der Komponentenvariablen fehlen dann, dass durch Zugabe der folgenden, wenn der Befehl ausgeführt werden. Wie durch die Ergebnisse der Frequenzen und Liste Befehle angezeigt.

Die Umkodierung Befehl kann verwendet werden, um die Dummy-Kodierungs Aufgabe zu Beginn des Abschnitts diskutiert zu erreichen. Wieder einmal, dass Sie ein Dummy-Variable von Trial1 mit einem Trennwert von 2. schaffen wollten Wir können die Umkodierung Befehl die Variable hit1 erstellen. Das gleiche gilt für hirt1 von trialr1 zu schaffen. Jedoch Dieser Befehl funktioniert anders in Bezug auf System-fehlt und fehlende Werte benutzerdefiniert.

Die Frequenzen zeigt das Ergebnis dieser Transformationen, wie sie die fehlenden Werte beeinflussen. Die Antwort ist richtig in Bezug auf systemdefinierte fehlende Werte und falsch in Bezug auf benutzerdefiniert fehlende Werte. Die benutzerdefinierten fehlenden Werte werden nach ihrem Wert, als ob sie nicht fehlen wurden.

Jetzt können wir Recode mit dem Schlüsselwort else untersuchen. Dies betrifft sowohl systemdefinierten fehlenden und benutzerdefiniert die gleiche fehlende Werte, aber leider weder korrekt sind. Das Schlüsselwort else werden beide Arten von fehlenden Werten enthalten und Fehl klassifizieren.

Die Frequenzen führen folgt.

Wenn wir hinzufügen, ist die (fehlende = sysmis) an die recode das Problem für systemdefinierten fehlenden gelindert. aber nicht für benutzerdefinierte fehlende Werte.

Die Frequenzen führen folgt.

Ändern der Reihenfolge von und (lo thru 2 = 0) verringert das Problem für benutzerdefinierte fehlt auch (= sysmis fehlt).

Die Frequenzen führen folgt.

8. Probleme, wo sie nach

9. Weitere Informationen

  • Siehe Untereinstellung Daten in SPSS für Informationen über Daten mit Variablen subsetting, die fehlen.
  • Weitere Informationen über die fehlenden Werte finden Sie in der SPSS Command Syntax Reference Guide.






In Verbindung stehende Artikel