Kreuzentropie

Aus testwiki
Zur Navigation springen Zur Suche springen

Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung. Eine Minimierung der Kreuzentropie in Bezug auf die Modellparameter kommt einer Maximierung der Log-Likelihood-Funktion gleich.

Definition

Sei X eine Zufallsvariable mit Zielmenge Ω, die gemäß P verteilt ist. Es sei weiter Q eine Verteilung auf demselben Ereignisraum.

Dann ist die Kreuzentropie definiert durch:

H(X;P;Q)=H(X)+D(PQ)

Hierbei bezeichne H(X) die Entropie von X und D(PQ) die Kullback-Leibler-Divergenz der beiden Verteilungen.

Äquivalente Formulierung

Durch Einsetzen der beiden Definitionsgleichungen H(X)=xXP(x)logP(x) und D(PQ)=xXP(x)logP(x)Q(x) ergibt sich nach Vereinfachung im diskreten Fall

H(X;P;Q)=xΩP(X=x)logQ(X=x).

und im stetigen Fall (mit Dichtefunktionen p und q)

H(X;P;Q)=Ωp(x)logq(x)dx

Schätzung

Zwar hat die Kreuzentropie eine vergleichbare Aussagekraft wie die reine Kullback-Leibler-Divergenz, erstere lässt sich jedoch auch ohne genaue Kenntnis von P schätzen. In der praktischen Anwendung ist daher Q meist eine Approximation einer unbekannten Verteilung P.

Nach obiger Gleichung gilt:

H(X;P;Q)=EP(logQ(X)),

wobei EP den Erwartungswert gemäß der Verteilung P bezeichnet.

Sind nun x1;;xnΩ Realisierungen von XP, d. h. eine unabhängig und identisch gemäß P verteilte Stichprobe. Dann ist der Stichprobenmittelwert ein erwartungstreuer Schätzer für die Kreuzentropie, welcher nach dem Gesetz der großen Zahlen konvergiert und seine Realisierung ist

H^(Q;n)=1ni=1nlogQ(xi).

Zusammenhang mit Log-Likelihood-Funktion

Vorlage:Siehe auch Gegeben sei ein Modell mit Parametern θ und (Ausgabe-)Wahrscheinlichkeitsdichte qθ welches die Wahrscheinlichkeitsdichte pdata annähern soll. Der wahre Wert der Parameter[1] θ maximiert die erwartete Log-Likelihood-Funktion E[log(qθ(x))]=Ωdxpdata(x)logqθ(x)=H(X;pdata,qθ).

Diese Gleichungen können mithilfe von Stichproben genähert werden: E[log(qθ(x))]𝐄^n[logqθ(x);pdata]=1ni=1nlogqθ(xi)=H^(X;pdata,qθ), wobei die Näherung wie unter Stichprobenmittelwert dargestellt folgt. Beachte, das Auftreten der Log-Likelihood-Funktion l=ilogqθ(xi) in der Näherung, wobei die Skalierung 1n die Lage des Maximums nicht verändert.

Abgeleitete Größen

Die Größe 2H(X;P;Q) beziehungsweise 2H(X) wird auch als Perplexität bezeichnet. Sie wird vor allem in der Spracherkennung verwendet.

Siehe auch

Literatur

Einzelnachweise