Data Mining Wie Sie Ihre Data Mining-Projekte den richtigen Weg beginnen

Die wichtige Sache ist mit Ihren Daten bequem zu machen. Wirklich verstehen die Daten, die Sie mit arbeiten, bevor es durch ein Verfahren oder das andere zu drücken. Wir sprechen hier nicht über die grundlegenden Schritte, bevor ein Data-Mining-Projekt wie sauber die Daten, fix fehlende Werte und dergleichen. Wir gehen davon aus diesen Dingen bereits gesorgt.







Hier sind drei Pre-Analysen, die Sie ausführen können, um sicherzustellen, dass Sie das Beste aus den Daten erhalten. Wir werden die erste in ein wenig Detail abdecken und die anderen für später speichern.

1. Führen eine bivariate Analyse: durch ein Streudiagramm Matrix zu erzeugen. Open-Source-Tool Rapidminer hat einige feine Features, dies zu tun. Beginnen Sie mit dem in Ihrem Tabellenblatt zu lesen (wenn das ist, wo Ihre Daten liegen) und die Verbindung mit dem Ausgangstor wie unten gezeigt.

Data Mining Wie Sie Ihre Data Mining-Projekte den richtigen Weg beginnen

Dann, wenn Sie die „Analyse“ durch einen Klick auf der blaue Taste „Play“ auf der Hauptmenüleiste ausführen, Rapidminer zeigt Ihnen drei Ergebnisse Optionen: Meta Datensicht, Datenansicht und Plot-Darstellung.

Der Vorteil einer bivariaten Analyse ausgeführt ist, dass Sie Flagge durch visuelle Inspektion kann, wenn alle Variablen signifikant einflussreich sind und zu qualitativ Cluster zu identifizieren. Dies gibt Ihnen einen Anhaltspunkt Clusteranalyse laufen, wenn nötig.







So kann bivariate Analyse wie folgt vorgehen:

  • Helfen Sie visuelle Muster identifizieren
  • Geben Sie, wenn es offensichtliche Schlüsselfaktoren sind
Es gibt zwei weitere Analysen, die sehr nützlich sein können, aber wir werden sie im Detail in einem kommenden Artikel decken.

2. Führen Sie eine univariate Analyse: Histogramme von Schlüsselvariablen zu erstellen, nachdem Sie Ihre bivariate visuellen Screening laufen. Dies ist nützlich, bevor ein Regressionsmodell zum Beispiel der Einrichtung, wenn die Parameter, die nicht normalverteilt sind Ihre Interpretation der Ergebnisse auswirken könnten.

3. Führen Sie eine Hauptkomponentenanalyse: Um das Problem Dimension zu reduzieren, wenn Sie können. Wir haben eine ausführliche Artikelserie, wie Hauptkomponentenanalyse an anderer Stelle in diesem Blog laufen. Sobald Sie dies ausgeführt haben, wird Ihre Arbeit erheblich reduziert, weil man den nicht-Einflussparameter in den Daten entfernen kann

  1. Verbessern Sie Ihre Algorithmen Rechengeschwindigkeit
  2. Fit-Modelle leichter
  3. Verstehen Sie bessere Ergebnisse

Also nicht springen in einen ausgeklügelten Algorithmus, nur weil Sie die Daten haben. Versuchen Sie, jeden letzt bisschen Einsicht mit grundlegenden statistischen Instrumenten drücken, bevor Sie für die großen Geschütze erreichen.

Wenn Sie mögen, wie-Artikel wie diese und schnellen und einfachen Zugriff auf alle solche Artikel in diesem Blog und andere Analysen Blogs bezogen haben wollen, melden Sie sich KOSTENLOS für visTASC unserem Online-Analytik-Portal!

Data Mining Wie Sie Ihre Data Mining-Projekte den richtigen Weg beginnen







In Verbindung stehende Artikel