Data Mining-Prozess

Dieses Kapitel beschreibt den Data-Mining-Prozess im Allgemeinen und wie es von Oracle Data Mining unterstützt. Data Mining erfordert Datenaufbereitung, Modellbau, Modelltests und Rechen Lift für ein Modell, Modell Anwendung (scoring) und Modell-Bereitstellung. Die Oracle-Datenbank und Oracle Data Mining bieten Einrichtungen für alle der Data-Mining-Schritte durchführen. In diesem Kapitel werden die folgenden Themen:







5.1 Wie wird Data Mining getan?

CRISP-DM ist eine allgemein anerkannte Methode für die Data-Mining-Projekte. Weitere Informationen finden Sie htttp: //www.crisp-dm.org. Die Schritte in dem Verfahren sind:

Business-Verständnis: Verstehen Sie die Projektziele und Anforderungen aus betriebswirtschaftlicher Sicht, und dann wandelt dieses Wissen in eine Data-Mining-Problemdefinition und ein vorläufigen Plan entwickelt, um die Ziele zu erreichen.

Datengrundlegendes: Beginnen Sie mit dem Sammeln von Daten, dann vertraut mit den Daten, Datenqualitätsprobleme zu identifizieren, erste Einblicke in die Daten zu entdecken, oder interessante Teilmengen zu erfassen, Hypothesen über versteckte Informationen zu bilden.

Datenaufbereitung: Beinhaltet alle Aktivitäten erforderlich, um die endgültige Datensatz (Daten, die in das Modellierungswerkzeug zugeführt werden) zu konstruieren, von den ursprünglichen Rohdaten. Aufgaben umfassen Tabelle, Fall und Attributauswahl sowie Transformation und Reinigung von Daten für die Modellierung von Werkzeugen.

Modellierung: Auswählen und eine Vielzahl von Modellierungstechniken anwenden und Werkzeugparameter auf optimale Werte kalibrieren. Typischerweise gibt es mehrere Techniken zum gleichen Data-Mining-Problemtyp. Einige Techniken haben spezifische Anforderungen an die Form von Daten. Daher ist ein Schritt zurück in die Datenvorbereitungsphase häufig benötigt.

Bereitstellung: Organisieren und die Ergebnisse des Data-Mining präsentieren. Deployment kann so einfach sein wie ein Bericht erstellt oder so komplex wie einen wiederholbaren Data Mining-Prozess zu implementieren.

Data Mining ist iterativ. Ein Data-Mining-Prozess wird fortgesetzt, nachdem eine Lösung bereitgestellt wird. Der Unterricht während des Prozesses gelernt können neue Geschäftsfragen auslösen. Daten ändern können neue Modelle erfordern. Nachfolgende Data-Mining-Prozesse profitieren von den Erfahrungen der vorherigen.

Oracle Data Mining (ODM) suppo rts die letzten drei Schritte von CRISP-DM-Prozess. Der erste Schritt, Geschäft Verständnis, ist einzigartig für Ihr Unternehmen. Die übrigen Schritte werden durch eine Kombination von ODM und der Oracle-Datenbank unterstützt, vor allem im Zusammenhang mit einem Lager Oracle-Daten. Die Einrichtungen der Oracle-Datenbank können bei den Daten Verständnis und Datenaufbereitung sehr nützlich sein.

5.2 Wie funktioniert Oracle Data Mining-Support Data Mining?

ODM integriert Data Mining mit der Oracle-Datenbank und Daten aussetzt Bergbau durch die folgenden Schnittstellen:

Java-Schnittstelle: Java Data Mining (JSR-73) kompatible Schnittstelle, die Benutzer Data-Mining in Java-Anwendungen einzubetten.

PL / SQL-Schnittstelle: Die Pakete DBMS_DATA_MINING und DBMS_DATA_MINING_TRANSFORM ermöglichen Benutzern Data-Mining in PL / SQL-Anwendungen einzubetten.

Automatisierte Data-Mining: Die DBMS_PREDICTIVE_ANALYTICS PL / SQL-Paket, kurz beschrieben in "Automatisiertes Data Mining". automatisiert den gesamten Prozess von Data-Mining-Datenvorverarbeitung durch Modellbildung zu scoring Daten.

Data-Mining-SQL-Funktionen: Die SQL Data Mining-Funktionen (CLUSTER_ID, CLUSTER_PROBABILITY, CLUSTER_SET, FEATURE_ID, FEATURE_SET, FEATURE_VALUE, vorhersage, PREDICTION_COST, PREDICTION_DETAILS, PREDICTION_PROBABILITY und PREDICTION_SET) Unterstützung Bereitstellung von Modellen im Rahmen der bestehenden Anwendungen, Ritzen Leistung verbessern, und ermöglichen Pipelining der Ergebnisse Data-Mining-Vorhersagen beteiligt sind. Weitere Informationen finden Sie unter „Data Mining-Funktionen“.

Grafische Oberflächen: Oracle Data Miner und Oracle Tabellenkalkulations-Add-In für Predictive Analytics sind grafische Schnittstellen, die Data-Mining-Probleme zu lösen. Siehe „Grafische Interfaces“ für einen kurzen Überblick.







Das Endergebnis des Data Mining ist ein Modell. Oft wird dieses Modell zum Einsatz, so dass ihre Ergebnisse in einer Anwendung eingebettet werden. ODM bietet die Möglichkeit für den Einsatz in "Model Deployment" beschrieben.

5.2.1 Java und PL / SQL-Schnittstellen

Die Java und PL / SQL-programmatischen Schnittstellen bieten die Einrichtungen Basisdaten Vorbereitung zu tun (Binning, Normalisierung, winsorizing, Clipping und Werte Behandlung fehlt.) Die beiden Schnittstellen auch Anrufe bereitzustellen, bauen, testen und anwenden, um die in Kapitel beschriebenen Modelle 3 und Kapitel 4.

Die ODM Java-Schnittstelle und die ODM PL / SQL-Schnittstelle haben die gleichen Fähigkeiten. Modelle von jeder Schnittstelle erzeugt interoperabel sind, kann beispielsweise ein Modell einer Schnittstelle aufgebaut werden unter Verwendung von und angewendet, um die andere Schnittstelle.

5.2.2 Automatisierte Data Mining

Die PL / SQL-Paket DBMS_PREDICTIVE_ANALYTICS automatisiert den Data-Mining-Prozess von der Datenvorverarbeitung über Modellbau, neue Daten Scoring. Diese Automatisierung bietet eine einfache und intuitive Schnittstelle. Das Paket stellt ein wichtiges Instrument, das Data-Mining für Anwender, die Bergbau-Experten nicht Daten vereinfacht.

DBMS_PREDICTIVE_ANALYTICS bietet folgende Funktionen:

EXPLAIN - Rang Attribute in der Reihenfolge des Einflusses in eine Zielspalte zu erklären

PREDICT - Predict den Wert eines Attributs

Ausführliche Informationen zu DBMS_PREDICTIVE_ANALYTICS. finden Sie in der Oracle Database PL / SQL-Packages und Typen Referenz.

Die Oracle-Tabellenkalkulations-Add-In für Predictive Analytics bietet eine grafische Benutzeroberfläche zu DBMS_PREDICTIVE_ANALYTICS; die Add-In wird kurz in "Grafische Interfaces" beschrieben.

5.2.3 Data Mining-Funktionen

Die Data-Mining-Funktionen sind SQL-Funktionen, die bestehenden ODM-Modelle gelten; sie auch Informationen über bestehende ODM-Modelle zurück. Die Funktionen sind wie folgt:

CLUSTER_ID. Gibt die Cluster-Kennung des vorhergesagten Cluster mit der höchsten Wahrscheinlichkeit für einen bestimmten Satz von Prädiktoren.

CLUSTER_PROBABILITY. Gibt ein Maß für den Grad des Vertrauens der Mitgliedschaft in einer Eingabereihe in einem Cluster mit dem angegebenen Modell zugeordnet.

CLUSTER_SET. Gibt eine VARRAY von Objekten, die alle möglichen Cluster und die Wahrscheinlichkeiten für die zurück Cluster, die eine bestimmte Zeile zu bestimmten Filterkriterien zu unterziehen, gehört.

FEATURE_ID. Gibt die Kennung der Funktion (in einer Merkmalsextraktionsmodell) mit dem höchsten Koeffizientenwert.

FEATURE_SET. Gibt eine VARRAY von Objekten mit allen möglichen Features und die Merkmalswerte in einem Merkmalsextraktion Modell unter bestimmten Filterkriterien.

FEATURE_VALUE. Gibt den Wert eines bestimmten Merkmals in einem Merkmalsextraktion Modell.

PROGNOSE. Gibt die beste Vorhersage für eine Klassifizierung oder Regressionsmodell eine Reihe von Prädiktoren gegeben.

PREDICTION_PROBABLILITY. Verwendung eines ODM Klassifikationsmodell gemacht Gibt die Wahrscheinlichkeit für eine Vorhersage.

Die Data-Mining-Funktionen haben viele Vorteile, die wichtigsten davon sind die folgenden:

Die Funktionen machen den Einsatz von Modellen im Rahmen der bestehenden Anwendungen einfach, da bestehende SQL-Anweisungen können leicht mit ihnen verbessert werden.

Die Funktionen erheblich verbessern Scoring (Modell anwenden) Leistung.

Die Funktionen ermöglichen Pipelining der Ergebnisse Data-Mining-Vorhersagen beteiligt sind; Dies ermöglicht unter anderem die Fähigkeit, einige Ergebnisse schnell zu einem Endbenutzer zurückzukehren.

Weitere Informationen zu den Mining-Funktionen SQL-Daten finden Sie in der Datenbank SQL Reference Oracle.

5.2.4 Grafische Interfaces

ODM hat zwei grafische Schnittstellen, die beide als Downloads von Oracle Technology Network verfügbar sind:

Oracle Data Miner i s eine Benutzeroberfläche zu ODM, die Datenanalysten und Anwendungsentwickler fortschrittliche Anwendungen Business Intelligence auf Basis von ODM bauen hilft. ODM Java Code Generator ist eine Erweiterung von Oracle JDeveloper, die Modelle erstellt mit Oracle Data Miner Java-Code exportiert.

Oracle Tabellenkalkulations-Add-In für Predictive Analytics ermöglicht Microsoft Excel-Nutzer Mine Daten in Oracle-Tabellen oder Excel-Tabellen mit den Merkmalen des DBMS_PREDICTIVE_ANALYTICS PL / SQL-Pakets.

5.2.5 Modell Deployment

Es ist co mmon zu Modellen auf einem System zu bauen und dann die Modelle zu einem Produktionssystem bereitstellen. Die ODM Scoring-Engine, 7. unterstützt Szenarien gemeinsamen Einsatz in Kapitel beschrieben.

ODM unterstützt Data Mining-Modell Export und Import im nativen Format zwischen Oracle-Datenbanken oder Schemata eine Möglichkeit zu schaffen, Modelle zu bewegen.

Modell Export / Import wird auf verschiedenen Ebenen unterstützt, wie folgt:

Datenbank-Export / Import. Wenn ein DBA eine vollständige Datenbank mit dem expdp Dienstprogramm exportiert, alle vorhandenen Data-Mining-Modelle in der Datenbank exportiert werden. Wenn ein DBA eine Datenbanksicherung mit dem impdp Dienstprogramm importiert, alle Data-Mining-Modelle in der Deponie werden wiederhergestellt.

Schema Export / Import. Wenn ein Benutzer oder DBA exportiert ein Schema mit expdp. all Data-Mining-Modelle in dem Schema exportiert werden. Wenn der Benutzer oder DBA importiert das Schema-Dump mit impdp. alle Modelle in der Deponie werden importiert.

Ausgewählte Modell Export / Import. Beide ODM-Schnittstellen Anrufe enthalten, die bestimmte Modelle exportieren oder importieren, beispielsweise die PL / SQL-Schnittstelle umfasst DBMS_DATA_MINING.export_model () und DBMS_DATA_MINING.import_model ().

ODM-Modell Export und Import-Modell basiert auf der Oracle-DBMS Data Pump. Wenn Sie ein Modell exportieren, die Tabellen, die das Modell und die zugehörigen Metadaten darstellen, werden zu einer Dump-Datei Satz geschrieben, der von einer oder mehreren Dateien besteht. Wenn Sie ein Modell importieren, werden die Tabellen und Metadaten aus der Datei abgerufen und in der neuen Datenbank gestellt.

Ausführliche Informationen zum Modell Export / Import finden Sie unter Oracle Data Mining-Administrator-Handbuch.

Scripting auf dieser Seite verbessert Inhalt Navigation, aber nicht den Inhalt in irgendeiner Weise ändern.







In Verbindung stehende Artikel