Parzen-Tree Estimator

Aus testwiki
Version vom 14. Februar 2024, 06:12 Uhr von imported>GünniX (WPCleaner v2.05 - Wikipedia:WPSK (Klammern nicht korrekt))
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Tree-structured Parzen Estimator (kurz Parzen-Tree Estimator oder TPE) sind Schätzfunktionen, die unter anderem in der bayesschen Hyperparameteroptimierung verwendet werden, um eine Approximation p(y|x) einer eigentlichen gesuchten Zielfunktion f:𝒳 zu konstruieren (𝒳 ist der Konfigurationsraum, x eine Menge von Hyperparameter und y=f(x) ein Score der Zielfunktion).

Die Auswertung der eigentlichen Funktion f ist „kostspielig“ (z. B. die passende Anzahl an Layers für ein Deep Neural Network zu finden), deshalb möchte man mit Hilfe der p(y|x) die besten Hyperparameter x finden, welche später dann in f eingesetzt werden. Es wird angenommen, dass der Konfigurationsraum 𝒳 eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern.

Die Wahrscheinlichkeitsdichte p(y|x) wird auch Surrogatmodell (oder surrogat probability model) genannt und wird nicht direkt modelliert, stattdessen wendet man den Satz von Bayes an

p(y|x)=p(x|y)p(y)p(x)

und modelliert p(x|y) und p(y).

Die Funktion p(x|y) wird durch Einführung eines Schwellenwertes y* in zwei Dichten aufgeteilt, so dass diese nicht mehr von y abhängen

p(x|y)={l(x) falls y<y*g(x) falls yy*.

Der Schwellenwert y* ist dabei ein α-Quantil, das heißt p(yy*)=α.

Die Dichten l(x) und g(x) werden dann mit Hilfe von Kerndichteschätzern konstruiert. Für l(x) werden die Observationen {xi} mit f(xi)<y* verwendet. Die restlichen Observationen, für die f(xk)>y* gelten, werden zur Konstruktion von g(x) benötigt.[1]

Einzelnachweise

  1. J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algorithms for Hyper-Parameter Optimization. In: Advances in Neural Information Processing Systems. 2011, S. 2546–2554 (PDF).