Aufteilen eines Continuous Variable in Kategorien

COMMON Misteaks MISTAKES in der Statistik weiter verwenden: Spek und Vermeidung von Them

Dies ist auch unter anderen Namen wie „Diskretisierung“, „Zerhacken Daten“ oder „Binning“ bezeichnet. 1 Spezifische Verfahren manchmal verwendet werden, umfassen „Median split“ oder „extremen dritten tails“.







Was auch immer es genannt wird, ist es in der Regel 2 eine schlechte Idee. Stattdessen, dass die Verwendung einer Technik (wie Regression) mit dem kontinuierlichen variabel Grund Grund arbeiten kann, ist intuitiv: Sie werfen weg Informationen. Dies kann auf verschiedene Weise mit verschiedenen Folgen auftreten. Hier sind einige:


1. Wenn Hypothesentests zu tun, der Verlust von Daten, wenn Kategorien kontinuierliche Variablen in der Regel führt zu Machtverlust zu teilen. 3







2. Der Verlust von Informationen beteiligt Bins bei der Auswahl eines Histogramm zu machen in einem irreführend Histogramm führen kann.

Beispiel. Die folgenden drei Diagramme sind alle Histogramme der gleichen Daten (die Zeiten zwischen aufeinanderfolgenden Eruptionen des Old Faithful Geysir im Yellowstone-Nationalpark). Die erste hat fünf Fächer, die zweiten sieben Behälter, und den dritten 14-Bins.

Aufteilen eines Continuous Variable in Kategorien
Aufteilen eines Continuous Variable in Kategorien
Aufteilen eines Continuous Variable in Kategorien

Beachten Sie, dass das Histogramm mit nur fünf Bins nicht die Bimodalität der Daten aufzunehmen; das Histogramm mit sieben Behälter Hinweise auf sie; und das Histogramm mit 14 Behältern zeigt es deutlich. 4







In Verbindung stehende Artikel