Statistical Learning
„Statistisches Lernen“ (Statistical Learning) ist die moderne Bezeichnung für das, was in der Statistik getan wird (James G. et al., An Introduction to Statistical Learning, 2021). Die meisten statistischen Projekte fallen in eine der beiden Unterkategorien „supervised learning“ oder „unsupervised learning“.
Sie ist (noch) nicht sehr verbreitet, aber bedeutend und hilfreich. Denn es geschieht nicht selten, dass statistische Methoden einfach angewendet werden ohne genau zu wissen, wie sie in die Landschaft der Verfahren einzuordnen sind und was deren eigentlicher Zweck/Bestimmung ist.
Supervised Learning
Insbesondere die medizinische Statistik beschäftigt sich meist mit Supervised Learning.
Anwendungsbeispiel Frauenheilkunde: Bei 20 Frauen sollen 3 Inputs, „Hämatokrit“, „Alter“ und „Menopause (ja /nein)“ den Output „Hämoglobinniveau“ vorhersagen/schätzen.
Allgemein gilt: Für jede Beobachtungi, i = 1, …n, gibt es eine Reihe von vorhersagenden Messungen xi (Inputs) und eine zugehörige Response-Variable yi (Output). Eine „Beobachtung“ ist in der Medizin i. d. R. die Patientini oder der Patienti.
Supervised Learning bedeutet, ein statistisches Modell zu entwickeln, das auf der Basis von Inputs xi einen Output vorhersagt oder schätzt. Mit dem Response können wir unsere Vorhersage kontrollieren (supervidieren).
Im Supervised Learning werden die Qualität der Ergebnisse der statistische Modelle bewertet, also evaluiert oder validiert: Hierzu gibt es mehrere Evaluierungsmethoden, cross-validation oder Validierung an einem unabhängigen Testset usw.
Supervised Learning | Statistische Modelle mit gegebener Zielgröße
Anwendungsbeispiel aus der Parodontologie unter -> Anwendungsbeispiele
Unsupervised Learning
Unsupervised Learning praktiziert man in der Medizin meist nur als Explorative Datenanalyse, womit jede statistische Arbeit i. d. R. beginnt. Aber nicht nur:
Anwendungsbeispiel Onkologie: Ein Krebsforscher möchte Genexpressionslevels von 100 Patientinnen mit Brustkrebs untersuchen. Er versucht Subgruppen unter den 100 Patientinnen zu finden (-> Clusteranalyse) oder Subgruppen unter den Genen zu finden (-> Hauptkomponentenanalyse, PCA) um ein besseres Verständnis von der Erkrankung zu gewinnen.
Allgemein gilt: Für jede Beobachtung i (Patienti ), i= 1, … ,n, gibt es eine Reihen von xi Messungen, aber keinen zugehörigen Response yi. Im „nicht supervidierten“ statistischen Lernen können wir unsere Arbeit nicht überprüfen, weil wir die wahre Antwort nicht kennen: Das Problem ist unsupervised.
Weitere Methoden des unsupervised learning werden in der Unterseite „Psychologie & Sozialwissenschaften“ ausführlicher behandelt und kommen in der Medizin /Biostatistik aktuell gerne zum Einsatz, um Daten für Anwendung von Methoden des supervised Learning vorzubereiten.
Unsupervised Learning | Statistische Modelle ohne ausgezeichnete Zielgröße
Während wir im supervised Learning- typischerweise ein Set von P Features X1, X2,,…, XP haben, gemessen an n Beobachtungen, und einen Response Y, gemessen an den selben Beobachtungen, haben wir hier nur ein Set von Features X1, X2,… XP, gemessen an n Beobachtungen. Unser Ziel ist nicht Kontrolle einer Vorhersage/Schätzung, sondern vielmehr, interessante Dinge über die Messungen X1, X2, …, XP zu entdecken. Gibt es eine aussagekräftige Art, die Daten zu visualisieren? Können wir Subgruppen unter den Variablen oder Subgruppen unter den Beobachtungen entdecken?
Keywords: Clusteranalysen, Hauptkomponentenanalyse, Mustererkennung, Latente Variable und Faktoranalyse, Independent Component Analysis, Multidimensionale Skalierung, Google Page Rank Algorithm
- Faktoren und Hauptkomponentenanalyse
Die Hauptkomponentenanalyse (Principal component Analyse, PCA) ist ein Spezialfall der Faktorenanalyse und ein Ansatz, mit dem wir versuchen, Untergruppen unter den Variablen X1, X2,…, XP, zu entdecken.
Wenn wir mit einem großen Set von korrelierten Variablen zu tun haben, können wir mithilfe von Hauptkomponenten dieses Set von Variablen durch ein kleineres Set von repräsentativen Variablen zusammenfassen und damit Übersichtlichkeit schaffen:
Anwendungsbeispiel aus der Medizin: Genexpressionsdaten. Die genetische Information ist auf eine Vielzahl von Merkmalen (Variablen) verteilt und wird durch das Verfahren auf wenige „künstlich erzeugte“ Variablen (unter möglichst geringem Informationsverlust) reduziert, die Gemeinsames messen.
Lernvideo: https://studyflix.de/statistik/hauptkomponentenanalyse-2211
Mit diesen wenigen künstlichen Variablen, den Hauptkomponaneten, kann man nun mit dem Vorteil weiter rechnen, dass sie statistisch unabhängig sind (Die in der Regressionsanalyse problematische Multikollinearität wird dabei vermieden).
Lernvideo: https://studyflix.de/statistik/multikollinearitaet-2151
Faktorenanalyse: Was in der PCA „Hauptkomponenten“ sind, heißt hier allgemein „Faktoren“.
Im Unterschied zur PCA interessieren wir uns hier für die Konstrukte hinter den Faktoren mit dem Anspruch, sie zu interpretieren.
Lernvideo: https://studyflix.de/statistik/faktorenanalyse-2210
- Clusteranalyse
Die Clusteranalyse ist ein Ansatz, mit dem wir versuchen, Subgruppen unter den n Beobachtungen zu entdecken.
Anwendungsbeispiel aus der Medizin (Genexpressionsdaten): Das Clustern von Genexpressionsdaten führt zur Identifizierung von Patientengruppen, deren Mitglieder jeweils Gemeinsamkeiten aufweisen. Auf dieser Basis möchte man clusterspezifische Therapieansätze zu entwickeln.
Lehrmaterial zum Thema Statistical Learning
Introduction to statistical Learning (ISL)
https://www.statlearning.com/
Es handelt sich vermutlich um das weltweit erfolgreichste Statistikbuch überhaupt.
Sein Erfolg hat mindestens 4 wichtige Gründe:
- für ein breites Publikum zugänglich (erfordert keine Kenntnisse der Matrixalgebra)
- einfache Sprache, um komplizierte Ideen auf ihre Essenz zu reduzieren
- baut auf den Grundlagen auf, damit die Leser die Bausteine der fortgeschritteneren Methoden verstehen können
- jedes Kapitel enthält eine Rechenübung, die in der sehr beliebten Open-Source-Software R geschrieben wurde, so dass die Leser lernen können, wie sie diese Methoden in der Praxis anwenden können.