Bootstrap aggregating

Aus testwiki
Version vom 5. Januar 2024, 10:52 Uhr von imported>Biggerj1 (Vorgehensweise)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen
Illustration des Baggingkonzeptes

Bootstrap aggregating (Bagging) ist eine Ensemble-learning-Methode, um Vorhersagen aus verschiedenen Regressions- oder Klassifikationsmodellen (mit hoher Varianz in der Vorhersage) zu kombinieren und dadurch die Varianz zu verringern. Die Methode wurde ursprünglich von Leo Breiman entwickelt.[1] Bootstrap aggregating wird beispielsweise bei Random Forests eingesetzt.

Vorgehensweise

Zunächst wird mithilfe des Bootstrapping-Verfahrens B Stichprobenwiederholungen des Umfanges n aus dem Originaldatensatz erzeugt und auf diesen werden dann B Vorhersagemodelle mi (i=1,,B) trainiert. Für einen Wert x ergeben sich dann B Vorhersagewerte mi(x). Die Ergebnisse der Modelle werden dann mit einer Aggregationsfunktion (z. B. Mittelwert, Median, Majority Voting etc.) zusammengefasst:

  • Ist der Vorhersagewert eine Klassenzugehörigkeit, dann könnte die am häufigsten vorhergesagte Klasse als Vorhersagewert mB(x) genommen werden (Aggregierung über Majority-Voting)
  • Im Regressionsfall ergibt sich bei Aggregierung über den Mittelwert der Vorhersagewert als
mB(x)=1B(m1(x)++mB(x)) oder allgemein mit Gewichten wi
mB(x)=w1m1(x)++wBmB(x).

Bei einer Aggregierungsfunktion, welche die einzelnen internen Modelle gewichtet, könnten die Gewichte z. B. von der Qualität der Modellvorhersage abhängen, d. h. „gute“ Modelle gehen mit einem größeren Gewicht ein als „schlechte“ Modelle.

Eigenschaften

Das Bagging führt im Fall von instabilen Modellen, d. h. Modellen, in denen sich die Struktur stark in Abhängigkeit von den Stichprobendaten ändert (siehe z. B. Classification and Regression Trees), meist zu deutlich verbesserten Vorhersagen.

Siehe auch

Einzelnachweise

Literatur

  • Ian H. Witten, Eibe Frank, Mark A. Hall (2011), Data Mining: Practical Machine Learning Tools and Techniques (Third Edition), Morgan Kaufmann