Singulärwertzerlegung und Hauptkomponentenanalyse

1. Einleitung

1.1 Mathematische Definition des SVD

Sei X eine m x n Matrix von realwertigen Daten und rankr bezeichnen. wo ohne Beschränkung der Allgemeinheit m ≥n. und daher r ≤ n. Im Fall von Mikroarray-Daten xij ist das Expressionsniveau der i-ten-Gen in der j-ten-Assay. Die Elemente der i-ten Reihe von X bilden die n -dimensionalen Vektor g i. was wir als Transkriptions Antwort des i-ten Gens. Alternativ bilden die Elemente der j-ten Spalte von X für den m-dimensionalen Vektor, der ein j. , die wir als das Expressionsprofil der j-ten-Test.







Ein wichtiges Ergebnis der SVD von X ist, dass

ist die Rang-Matrix l Der Begriff „Nähe“ bedeutet, dass X (L) minimiert die Summe der Quadrate der Differenz der Elemente der Reste X und X (l), die am nächsten an X. Σij | xij - x (l) ij | 2.

Eine Möglichkeit, die SVD zu berechnen, ist an den ersten V T und S berechnen durch Diagonalisierung X T X.

und dann U wie folgt zu berechnen:

Verhältnis zur Hauptkomponentenanalyse. Es gibt eine direkte Beziehung zwischen PCA und SVD in dem Fall, in dem die Hauptkomponenten aus der Kovarianzmatrix berechnet werden. Wenn man die Bedingungen Datenmatrix X durch jede Spalte Zentrieren, dann X T X = & Sigma; i g i g i T ist proportional zu der Covarianzmatrix der Variablen g i (d.h .. die Kovarianzmatrix der Assays). Durch die Gleichung 5.3, Diagonalisierung von X T X ergibt V T., die auch die Hauptkomponenten ergibt < g i >. Also, die richtigen singulären Vektoren < v k > sind die gleichen wie die Hauptkomponenten < g i >. Die Eigenwerte von X T X 2 sind äquivalent zu sk, die zu den Varianzen der Hauptkomponenten proportional sind. Die Matrix US enthält dann die Hauptkomponenten-Scores. Welches sind die Koordinaten der Gene in dem Raum von Hauptkomponenten.

Wenn stattdessen jede Zeile von X zentriert ist, XX T = & Sigma; j ein j a j T ist proportional zu der Covarianzmatrix der Variablen einer j (d.h. die Kovarianzmatrix der Gene). In diesem Fall ließ die singulären Vektoren < u k > sind die gleichen wie die Hauptkomponenten < a j >. Die sk 2 ist wiederum proportional zu den Varianzen der Hauptkomponenten. Die Matrix T SV wiederum enthält die Hauptbestandteilswerte, die die Koordinaten der Assays in dem Raum von Hauptkomponenten sind.

Bezug auf die Fourier-Analyse. Anwendung der SVD in der Datenanalyse weist Ähnlichkeiten mit der Fourier-Analyse. Wie es der Fall mit SVD umfasst Fourier-Analyse Erweiterung der ursprünglichen Daten in einer orthogonalen Basis:

Die Verbindung mit SVD kann explizit durch Normalisieren des Vektors e dargestellt werden i2 πjk / m> und durch v ‚k Benennung:

welches erzeugt die Matrix-Gleichung X = U ‚S‚V‘T. ähnlich wie 5,1-Gleichung. Im Gegensatz zu dem SVD jedoch, obwohl der < v 'k > Wird eine Orthonormalbasis des < u 'k > im allgemeinen orthogonal ist es nicht. Dennoch zeigt dies, wie der SVD ein Fourier-Transformation ähnlich ist, wobei die Vektoren < v k > in einer ganz bestimmten Art und Weise aus den Daten bestimmt werden, unter Verwendung der Gleichung 5.1, anstatt wie für die Fourier-Transformation zu Beginn gegeben. Ähnlich wie bei Tiefpassfilterung in Fourier-Analyse, später werden wir beschreiben, wie SVD Analyse Filterung ermöglicht, indem Sie auf diesen singulären Vektoren konzentriert, die die höchsten Einzelwerte haben.

1.2Illustrative Anwendungen

2. SVD-Analyse von Genexpressionsdaten

Wie wir in der Einleitung, Genexpressionsdaten sind gut geeignet, um Analyse unter Verwendung von SVD / PCA erwähnen. In diesem Abschnitt stellen wir Beispiele für SVD-basierte Untersuchungsmethoden angewandt, wie zur Genexpressionsanalyse. Bevor spezifische Techniken darstellen, werden wir Wege der Interpretation des SVD im Zusammenhang mit Genexpressionsdaten diskutieren. Diese Interpretation und die begleitende Nomenklatur werden später beschrieben für das Verständnis der Methoden als Grundlage dienen.

In der Systembiologie-Anwendungen, wollen wir in der Regel Beziehungen zwischen Genen zu verstehen. Das Signal von Interesse in diesem Fall ist das Gen Transkriptionsantwort g i. Durch die Gleichung 5.1 ist die SVD-Gleichung für g i

Bild 5.1. Grafische Darstellung des SVD einer Matrix X mit Notationen in diesem Kapitel angenommen kommentiert.







2.1Visualization des SVD

Bild 5.2. Visualisierung des SVD von Zellzyklusdaten. Plots der relativen Varianz (a); und das erste (B), zweite (c) und dritte (d) eigengenes gezeigt. Die Verfahren zur Visualisierung in jeder Platte verwendet werden in Abschnitt 2.1 beschrieben. Diese Daten inspirierten unsere Wahl der Sinus- und exponentieller Muster für die synthetischen Daten von Abschnitt 2.1.

Um unsere Diskussion der Visualisierung zu unterstützen, verwenden wir eine synthetische Zeitreihendaten eingestellt und mit 14 sequentiellen Expressionsniveau Assays (Spalten von X) von 2000 Genen (Reihen von X). Verwendung eines synthetischen Datensatzes ermöglicht es uns, einfache Illustrationen zu schaffen, die als Grundlage für das Verständnis der komplexere Muster dienen können, die in Echtgenexpressionsdaten entstehen. Gene in unserem Datensatz haben einen von drei Arten von Transkriptionsreaktion, durch experimentell beobachteten Muster in der Cho inspiriert et al. Zellzyklus-Daten: 1) Rauschen (1600 Gene); 2) verrauschten Sinusmuster (200-Gene); oder 3) noisy exponentielle Muster (200-Gene). Rauschen für alle drei Gruppen von Genen wurde durch aus einer Normalverteilung modelliert Abtasten mit einem Null-Mittelwert und eine Standardabweichung von 0,5. Die Sinusmuster haben die funktionale Form eine sin (2πt / 140) und das exponentielle Muster die Form -t / 100 sein. wo ein gleichmäßig über das Intervall (1.5,3) abgetastet wird, b gleichmäßig über (4,8) abgetastet wird, t die Zeit (in Minuten) ist mit jedem Test zugeordnet ist, und Zeitpunkt werden alle zehn Minuten, beginnend bei t = abgetastete 0. Jede Transkriptionsreaktion des Gens wurde zentriert einen Mittelwert von Null zu haben. Abbildung 5.3 zeigt Gene vom Typ 2) und 3).

Bild 5.3. Gene Transkriptions Antworten aus dem synthetischen Datensatz. Overlays von a) fünf verrauschten Sinuswelle Genen und b) fünf verrauschten exponentiellen Genen.

2.1.1Visualization der Matrizen V S. T und U

Bild 5.4. Visualisierung des SVD des synthetischen Datenmatrix. a) Singulärwertspektrum in einem relativen Varianz Plot. Die ersten beiden singulären Werte entfallen 64% der Varianz. Der erste (b), zweite (c) und dritte (d) eigengenes werden gegen die Zeit (Assays) in den verbleibenden Platten aufgetragen. Der dritte eigengene fehlt die offensichtliche cyclische Struktur der ersten und zweiten.

2.1.2 Streudiagramme

Visualisierung der Struktur in hochdimensionalen Daten erfordert Anzeige der Daten in einem ein-, zwei- oder dreidimensionalen Unterraum. SVD identifiziert Subräume dass capture meisten der Varianz in den Daten. Auch wenn unsere Diskussion hier über Visualisierung ist in Unterräumen von SVD erhalten, die dargestellten Visualisierungstechniken sind allgemein gehalten und können in den meisten Fällen für die Visualisierung in anderen Unterräumen angewandt werden (Abschnitt 4 für Techniken sehen, die anderen Kriterien für die Auswahl Subraum verwenden).

wobei Rik bezeichnet die Korrelationskoeffizienten der Transkriptionsantwort g i mit eigengene v k; δ g i ist der Mittelwert zentrierten g i. die Elemente, von denen xij - j> i. und δ v k die mittlere zentrierten v k. die Elemente sind, von denen vjk - j> k. Die Normalisierung führt zu -1 ≤ Rik ≤ 1. Man beachte, daß, wenn jedes gi vorverarbeiteten Null Mittelwert und die Einheitsnorm haben, folgt, dass die Korrelationsstreudiagramm zur Projektionsstreudiagramm entspricht (gi = gi δ impliziert vk = δ vk und | δ gi | -1 = | δ vk | -1 = 1).

In der Projektionsstreudiagramm, Gene, die mit einem relativ hohen Ausmaß Koordinate auf der Achse k die Varianz der k-ten eigengene im Datensatz relativ stark beitragen. Je weiter liegt ein Gen vom Ursprung entfernt ist, desto stärker ist der Beitrag dieses Gens ist nicht auf die Varianz von dem Unterraum erfaßt. In dem Korrelationsstreudiagramm, Gene, die mit einem relativ hohen Betrag an dem k-Koordinaten -Achse Transkriptionsreaktionen, die relativ stark mit der k-ten eigengene korrelieren.

2.2 Detektion von schwachen Expressionsmuster

Bild 5.6. SVD-basierte Erkennung von schwachen Signalen. a) Eine graphische Darstellung der ersten eigengene zeigt die Struktur des schwachen Sinuswellensignal, das für die Hälfte der Gene der Transkriptionsreaktion beiträgt. b) Der zweite eigengene ähnelt Rauschen. c) Ein relatives Varianz-Diagramm für die ersten sechs Singulärwerte zeigt einen Ellbogen nach dem ersten Singulärwert. d) Die Signal- und Rausch Gene nicht in einem eigengene Streudiagramm von 150 der Signal Gene und 150 der Nur-Rausch-Gene getrennt.

2.3 Beispiele aus der Literatur

3. Diskussion

In Abschnitt 2.3 Wir diskutieren, wie, und nicht in gut definierte Gruppen trennen, Zellzyklus-Gene sind in der Regel kontinuierlich in SVD Projektionen verteilt werden. Wenn zum Beispiel der Korrelationen von Genen, die mit den ersten beiden rechten Singulärvektoren Plotten, erscheinen Zellzyklus-Gene relativ gleichmäßig um einen Ring zu verteilen. Diese Struktur deutet darauf hin, dass, anstatt ein Klassifizierungsverfahren unter Verwendung von Genen, die Gruppen entsprechend ihre Co-Lage in der Umgebung eines Punktes (z .. k -Mittel clustering), sollte man ein Klassifikationsverfahren für den Umgang mit entsprechendem ringartigen Verteilungen zu wählen. Vorherige Zellzyklusanalysen daher veranschaulichen die Tatsache, dass eine wichtige Verwendung von SVD ist bei der Auswahl der passenden Klassifizierungsverfahren durch Untersuchung der Dimensionalität der Daten zu unterstützen.

4. Weiterführende Literatur und Ressourcen

Anerkennungen

Wir danken Raphael Gottardo und Kevin Vixie für kritisch, das Manuskript zu lesen. Das Schreiben dieses Kapitels wurde innerhalb der Schirmherrschaft des Department of Energy (DOE) im Auftrag der University of California durchgeführt und wurde vom Labor-Directed Forschung und Entwicklung in Los Alamos National Laboratory unterstützt.

Referenzen

Cattell R.B. Der Geröll-Test für die Anzahl von Faktoren ab. Multivariate Verhaltensforschung 1966; 1: 245-76.

Deprettere F. SVD und Signalverarbeitung: Algorithmen, Analysis und Anwendungen. Amsterdam: Elsevier Science Publishers, 1988.

Friedman J.H. Tukey J. W. Ein Vorsprung Verfolgung Algorithmus zur explorativen Datenanalyse. IEEE Transactions on Computers 1974; 23: 881-89.

Jolliffe I. T. Hauptkomponentenanalyse. New York: Springer, 1986.







In Verbindung stehende Artikel