Statistics Toolbox

Regression und ANOVA

Regressionen

Mit Hilfe der Regression können Sie eine kontinuierliche Variable als Funktion von einem oder mehreren Prädiktoren modellieren. Statistics Toolbox bietet vielfältige Regressionsalgorithmen, darunter lineare Regression, generalisierte lineare Modelle, nichtlineare Regression und Mixed-Effects-Modelle.

Lineare Regressionen

Die lineare Regression ist eine statistische Modellierungsmethode, um eine kontinuierliche abhängige Variable als Funktion von einer oder mehreren Prädiktorvariablen zu beschreiben. Sie können damit das Verhalten von komplexen Systemen verstehen und vorhersagen oder experimentelle, finanzielle und biologische Daten analysieren.

Die Toolbox bietet mehrere Arten linearer Regressionsmodelle und Optimierungsmethoden, darunter:

  • Einfach: Modell mit nur einem Prädiktor
  • Mehrfach: Modell mit mehreren Prädiktoren
  • Multivariat: Modell mit mehreren abhängigen Variablen
  • Robust: Modell auch bei Ausreißern
  • Schrittweise: Modell mit automatischer Variablenauswahl
  • Regularisiert: Modell, das mit redundanten Prädiktoren umgehen und Überanpassung durch Verwendung von Ridge-, Lasso- und elastischen Netz-Algorithmen vermeiden kann

Computational Statistics: Auswahl, Regularisierung und Verkleinerung von Merkmalen mit MATLAB 36:51
So gelingen exakte Anpassungen auch bei korrellierten Daten.

Nichtlineare Regression

Die nichtlineare Regressionen ist eine statistische Modellierungsmethode, mit der nichtlineare Beziehungen in experimentellen Daten beschrieben werden können. Nichtlineare Regressionsmodelle gelten im Allgemeinen als parametrisch, wobei das Modell als nichtlineare Gleichung beschrieben wird. Typischerweise werden Methoden für maschinelles Lernen für die nichtparametrische, nichtlineare Regression angewandt.

Die Toolbox bietet außerdem robuste nichtlineare Datenoptimierung, um mit Ausreißern im Datensatz umzugehen.

Fitting mit MATLAB: Statistiken, Optimierung und Kurvenanpassung 38:37
Anwendung von Regressions-Algorithmen mit MATLAB.

Generalisierte lineare Modelle

Generalisierte lineare Modelle sind ein Sonderfall von nichtlinearen Modellen, die lineare Methoden nutzenMit ihnen können abhängige Variablen Nicht-Normalverteilung aufweisenund über eine Verbindungsfunktion verfügen, die beschreibt, wie der erwartete Antwortwert mit den linearen Prädiktoren in Verbindung steht.

Statistics Toolbox unterstützt die Datenoptimierung generalisierter linearer Modelle mit den folgenden Antwortverteilungen:

  • Normal (Probit-Regression)
  • Binomial (logistische Regression)
  • Poisson
  • Gamma
  • Inverse Gauß-Verteilung

Datenoptimierung mit generalisierten linearen Modellen (Beispiel)
So werden generalisierte lineare Modelle mit glmfit und glmval optimiert und ausgewertet.

Mixed-Effects-Modelle

Lineare und nichtlineare Mixed-Effects-Modelle sind Generalisierungen von linearen und nichtlinearen Modellen für Daten, die erfasst und in Gruppen zusammengefasst werden. Diese Modelle beschreiben die Beziehung zwischen einer abhängigen Variable und unabhängigen Variablen mit Koeffizienten, die hinsichtlich einer oder mehrerer Gruppierungsvariablen variieren können.

Statistics Toolbox unterstützt die Optimierung von mehrstufigen oder hierarchischen Modellen mit eingebetteten und/oder gekreuzten Random Effects, die zur Durchführung einer Vielzahl von Studien genutzt werden können, wie z. B.:

  • Längsschnittstudie/Panelstudie
  • Modellerstellung mit Messwiederholung
  • Wachstumsmodellierung
Plot comparing Gross State Product for three states fitted using a multilevel mixed-effects model and ordinary least-squares.
Diagramm zum Vergleich des Bruttoinlandsprodukts von drei Bundesstaaten, optimiert mit einem mehrstufigen Mixed-Effects-Modell (links) und der Methode der kleinsten Quadrate (rechts). Die fitlme Funktion in der Statistics Toolbox kann Modelle mit größerer Vorhersagegenauigkeit erstellen, wenn Daten gesammelt und in Gruppen zusammengefasst werden.

Modellbewertung

Mit der Statistics Toolbox können Sie eine Modellbewertung für Regressionsalgorithmen vornehmen, unter Verwendung von Tests zur statistischen Signifikanz und Maßen der Anpassungsgüte, wie z. B.:

  • F-Test und T-Test
  • R2 und angepasstes R2
  • Kreuzvalidiertes mittleres Fehlerquadrat
  • Akaike Informationskriterium (AIC) und Bayes’ Informationskriterium (BIC)

Sie können Konfidenzintervalle sowohl für Regressionskoeffizienten als auch für vorhergesagte Werte berechnen.

Nichtparametrische Regression

Die Statistics Toolbox unterstützt auch nichtparametrische Regressionstechniken zur Erzeugung eines präzisen Fits, wenn kein explizites Modell, das die Beziehung zwischen Prädiktor und Antwort beschreibt, zur Verfügung steht. Nichtparametrische Regressionstechniken können umfassender als überwachtes maschinelles Lernen für Regression klassifiziert werden; dazu zählen sowohl Entscheidungsbäume als auch Regressionsbäume mit Boosting und Bagging.

Nicht-parametrische Anpassung 4:07
Entwickeln Sie ein prädiktives Modell, wenn Sie keine Funktion angeben können, die die Beziehung zwischen Variablen beschreibt.

ANOVA

Mit der Varianzanalyse (Analysis of Variance, ANOVA) können Sie Beispielvarianzen zu unterschiedlichen Quellen hinzufügen und bestimmen, ob die Abweichung innerhalb oder zwischen verschiedenen Populationsgruppen entsteht. Die Statistics Toolbox umfasst diese ANOVA Algorithmen und damit verbundene Techniken:

Weiter: Maschinelles Lernen

Probieren Sie Statistics Toolbox

Testsoftware anfordern

Machine Learning with MATLAB

Webinar anzeigen