6 Schritte Daten Wissenschaftler nutzen, um Execute Data Mining Projekte - BI Insight - Business Intelligence

Im weitesten Sinne der Definition bezieht sich Wissenschaftler an jemanden, der eine systematische Tätigkeit, Wissen zu erwerben gilt. Kein Wunder also, dass die Daten Wissenschaftler haben den Begriff in ihrer Berufsbezeichnung; Methodik ist im Herzen, wie sie ihre Aufgaben zu erfüllen. Aber während der Daten Wissenschaftler nicht genau die wissenschaftliche Methode verwenden, haben sie eine Methode verwenden, die viele der gleichen Grundsätze beschäftigt.







Diese Methode wird als Cross Industry Standard Process for Data Mining bekannt, die nun der Einfachheit halber als CRISP bezeichnet wird.

So verwenden viele Daten Wissenschaftler ein praktisches Verständnis der Methode zu gewinnen Erkenntnisse aus Daten zu sammeln, lassen Sie uns die sechs Schritte von CRISP untersuchen, beziehen jeweils wieder den Prinzipien der wissenschaftlichen Methode Schritt.

1. Geschäftsgrundlegendes

Interessanterweise kann dieser Schritt etwas Kreativität erfordern und nicht unbedingt von einem Datum Wissenschaftler stammen muß. Jedes Unternehmen Analyst kann ein Unternehmen Bedarf identifizieren, die einen besseren Einblick erfordert, obwohl es oft bis zu dem Daten Team Unter Bedürfnisse zu schaffen, die direkt mit Data Mining-Projekte in Beziehung gesetzt werden können.

Natürlich ist diese Phase der CRISP bezieht sich auf die Hypothese Phase der wissenschaftlichen Methode. Das Thema wird untersucht und ein Rahmen wird unter denen geschaffen, die vorgeschlagene Frage zu beantworten.

Sobald das Geschäft Problem bekannt ist, ist es Zeit, ein Verständnis für die spezifischen Datenpunkte zu gewinnen, die zu beziehen - und im Idealfall lösen - das Problem. Dieser Schritt erfordert unter Berücksichtigung der Erwerb und die Arbeitskosten im Vergleich zu dem Wert der notwendigen Daten. Mit anderen Worten, was sind die erwarteten Kosten für das Sammeln und diese Daten im Vergleich zu den Belohnungen zu analysieren? Sobald die Daten gesammelt werden, nicht übertreffen die Vorteile noch die Kosten, sie zu integrieren?

Für Analysten, hilft Daten Verständnis der spezifischen Techniken (Regression, Klassifikation, Datenreduktion) zu identifizieren, erforderlich, um die erforderliche Einsicht aus den Daten zu ziehen. Selbst in diesem frühen Stadium ist es möglich, dass eine Vielzahl von Projekten zu erscheinen, entweder in der Analyse oder das Sammeln, als Datenbedarf geklärt ist und Lücken in den Daten identifiziert werden.







Schritt zwei sich von der Hypothese Phase auf die Charakterisierung Phase der wissenschaftlichen Methode. Hier Beobachtungen und Messungen werden die Herstellung der Materialien zu organisieren - Daten in diesem kontext, die später in den Experimenten verwendet.

3. Datenaufbereitung

Verbleibende im wissenschaftlichen Bereich, kann der dritte Schritt in CRISP sein eines der schwierigsten. Data Mining ist nicht immun gegen die „garbage in, garbage out“ Binsenweisheit, so fleißig Daten Wissenschaftler müssen Zeit verbringen, manchmal erhebliche Mengen, Daten Normalisierung für Variablen zu steuern und für optimale Ergebnisse anstreben.

In Business Intelligence oder Data-Warehousing-Software. Dieser Schritt folgt oft den Prozess des Extrahierens, Umwandeln und Laden von Software. Nachdem die Daten gesammelt wurden, müssen sie in eine gemeinsame Form umgewandelt werden, so dass Abfragen von Daten über unterschiedliche Datenquellen vergleichen.

Modellierung kann auch in der experimentellen Phase der wissenschaftlichen Methode klassifiziert werden, da dieser vierte Schritt des CRISP die Ergebnisse produziert, die ausgewertet werden, und entweder akzeptiert oder abgelehnt wird.

Wie der Name schon sagt, beurteilt dieser Schritt die Leistung des Data-Mining-Modells, das in der vierten Etappe gebaut wurde. Wie auch in anderen wissenschaftlichen Bereichen, muss ein strenges Regime bestimmen Standards für den Erfolg angewandt werden. Darüber hinaus ist es üblich, ein Data-Mining-Modell unter Verwendung von Testdaten zuerst, um zu arbeiten, keine negativen Folgen anzuwenden, die bei der Arbeit an einem neuen Projekt entstehen können.

Auswertung im CRISP Modell Überschneidungen mit den experimentellen und Charakterisierung Phasen der wissenschaftlichen Methode. Nachdem die Versuche abgeschlossen sind, müssen die Ergebnisse untersucht werden und anschließend verworfen oder akzeptiert.

Es ist in dieser letzten Phase, die das CRISP-Modell aus der traditionellen wissenschaftlichen Methode abweicht. Während die Ergebnisse eines Experiments muss von Peers in der gleichen Spezialität und als akzeptabel von der wissenschaftlichen Gemeinschaft überprüft werden, der Wissenschaft Daten schreibt vor, dass, wenn die Ergebnisse eines Data Mining-Modells angenommen wurden, ist es Zeit, das System aus dem Labor zu nehmen ist und steckt es in der Produktion. Emporzuheben und Churn Modelle sind typische Beispiele für die Data-Mining-Modelle angewendet Datensegmente zu leben.

So, während Data Mining und die wissenschaftliche Methode nicht vollständig überlappen, ein Verständnis für die Schritte der beliebten CRISP-Methode gewinnen und wie es zu einem bezieht sie bekannten Ansatz zur Erkenntnisgewinnung ist nützlich. Durch ein besseres Verständnis, wie die Daten Wissenschaftsteam formuliert und schließt Projekte, Business-Analysten können ihre Kreativität und Einsicht nutzen, um bessere Geschäfts Probleme zu definieren, die durch Data Mining beantwortet werden können.







In Verbindung stehende Artikel