Automatisches Differenzieren

Aus testwiki
Zur Navigation springen Zur Suche springen

Das automatische Differenzieren bzw. Differenzieren von Algorithmen ist ein Verfahren der Informatik und angewandten Mathematik. Zu einer Funktion in mehreren Variablen, die als Prozedur in einer Programmiersprache oder als Berechnungsgraph gegeben ist, wird eine erweiterte Prozedur erzeugt, die sowohl die Funktion als auch einen oder beliebig viele Gradienten bis hin zur vollen Jacobi-Matrix auswertet. Wenn das Ausgangsprogramm Schleifen enthält, darf die Anzahl der Schleifendurchläufe nicht von den unabhängigen Variablen abhängig sein.

Diese Ableitungen werden z. B. für das Lösen von nichtlinearen Gleichungssystemen mittels Newton-Verfahren und für Methoden der nichtlinearen Optimierung benötigt.

Das wichtigste Hilfsmittel dabei ist die Kettenregel sowie die Tatsache, dass zu den im Computer verfügbaren Elementarfunktionen wie sin, cos, exp, log die Ableitungen bekannt und genauso exakt berechenbar sind. Damit wird der Aufwand zur Berechnung der Ableitungen proportional (mit kleinem Faktor) zum Aufwand der Auswertung der Ausgangsfunktion.

Berechnung von Ableitungen

Aufgabe: Gegeben sei eine Funktion

f:nm,xy

Gesucht ist der Code/die Funktion für Richtungsableitungen oder die volle Jacobi-Matrix

fx=[yixj]i=1..m,j=1..n

Verschiedene Ansätze hierfür sind:

  1. Versuche, eine geschlossene, analytische Form für f zu finden und bestimme fx durch Differentiation „auf Papier“. Implementiere dann den Code für fx von Hand.
    Problem: Zu schwierig, zeitaufwendig, fehleranfällig
    Vorteile: sehr effizient, hohe Genauigkeit
  2. Erzeuge die Berechnungsvorschrift für f in einem Computeralgebrasystem und wende die dort zur Verfügung stehenden Mittel zum symbolischen Differenzieren an. Exportiere dann den Code für fx in seine eigentliche Umgebung.
    Problem: Zeitaufwendig, skaliert nicht, zu kompliziert für größere Programme/Funktionen
  3. Bestimme eine numerische Approximation der Ableitung. Es gilt für kleines h
    fkx=limh0fk(x+h)fk(x)hfk(x+h)fk(x)h.
    Problem: Wahl der optimalen Schrittweite h, ungenau, eventuell Instabilität
    Vorteil: einfache Berechnung
  4. Stelle die Berechnungsvorschrift als Berechnungsbaum, d. h. als arithmetisches Netzwerk, dar und erweitere diesen unter Verwendung der Kettenregel zu einem Berechnungsbaum für Funktionswert und Ableitung fx.

Die Idee der automatischen Differentiation (AD)

Eine Funktion f(x):nm,xy kann als eine Verkettung elementarer Teil-Funktionen beschrieben werden. Automatische Differentiation (AD) berechnet die Ableitung als Verkettung partieller Ableitungen. AD benötigt daher den Wert und die Ableitung jeder Teil-Funktion als Zwischenergebnis. Dem Zwischenwert jeder Teil-Funktion wird nachfolgend eine Variable (t1,t2,t3,) zugewiesen. Man kann sich dies so vorstellen, dass es eine (potentiell unendliche) Folge von Zwischenwerten (t1,t2,t3,) gibt und Funktionen qk:n+k1, die aber nur von ein oder zwei Variablen wirklich abhängen. Die Funktion wird ausgewertet, indem am Anfang (t1,t2,,tn)=(x1,x2,,xn) gesetzt wird und nacheinander

tn+1=q1(t1,,tn)tn+2=q2(t1,,tn,tn+1)tn+K=qK(t1,,tn,tn+1,,tK1)

bestimmt wird. Dies kann so eingerichtet werden, dass die Funktionswerte von f sich in den zuletzt ausgewerteten Zwischenergebnissen befinden, d. h. am Ende wird noch (y1,,ym)=(tKm+1,,tK) zugeordnet.

AD beschreibt eine Menge von Verfahren, deren Ziel es ist, ein neues Programm zu erzeugen, das die Jacobimatrix von f, J=fxm×n auswertet. Die Eingabevariablen x heißen unabhängige Variablen, die Ausgabevariable(n) y abhängige Variablen. Bei AD unterscheidet man mindestens zwei verschiedene Modi.

  1. Vorwärtsmodus (engl. Forward Mode)
  2. Rückwärtsmodus (engl. Reverse Mode)

Beide Modi basieren auf der Kettenregel, wonach die Ableitung einer Funktion sich als Verkettung partieller Ableitungen darstellen lässt: f(g)x=f(g)ggx. Der Vorwärtsmodus beginnt mit der inneren Ableitung gx, der Rückwärtsmodus mit der äußeren f(g)g. Der Wert der partiellen Ableitung, genannt Saat (engl. seed), wird jeweils vor- bzw. zurückpropagiert und ist initial xx=1 bzw. f(g)f(g)=1. Der Vorwärtsmodus wertet im selben Schritt die Funktion aus und berechnet die Ableitung bzgl. einer unabhängigen Variablen. Für jede unabhängige Variable x1,x2,,xn ist daher ein eigener Schritt nötig, in dem die Ableitung bzgl. einer unabhängigen Variable auf eins (x1x1=1) und aller anderen auf null (x2x1==xnx1=0) gesetzt wird. Im Gegensatz dazu benötigt der Rückwärtsmodus für die partiellen Ableitungen die ausgewerteten Teil-Funktionen. Der Rückwärtsmodus wertet daher die Funktion zuerst aus und berechnet die Ableitungen bzgl. aller unabhängiger Variablen in einem zusätzlichen Rückwärtsschritt.

Vorwärtsmodus

Automatisches Differenzieren im Vorwärtsmodus

Im Vorwärtsmodus werden die partiellen Ableitungen entlang des Kontrollflusses der Berechnung von f transportiert, also von der innersten zur äußersten partiellen Ableitung.

Beispiel

Berechne eine Funktion f(x1,x2,a)=(x1+x2)asin(x1+x2)=y2

 [y0,y1,y2]=f(x1,x2,a){y0=x1+x2y1=asin(y0)y2=y0y1}

Eine automatische Differentiation im Vorwärtsmodus hätte eine Funktion

 [y0,y1,y2,y0,y1,y2]=fAD(x1,x2,x1,x2,a)

zum Ergebnis, die den Wert der inneren Ableitung von x1,x2 (x1,x2) erwartet und die Ableitung von y0,y1,y2 (y0,y1,y2) zurückgibt:

 [y0,y1,y2,y0,y1,y2]=fAD(x1,x2,x1,x2,a){y0=x1+x2y0=x1+x2y1=asin(y0)y1=acos(y0)y0y2=y0y1y2=y0y1+y0y1}

Um die Ableitung y2x1 zu berechnen, muss x1x1=x1=1 und x2x1=x2=0 gesetzt werden und entsprechend für y2x2 dann x1x2=x1=0 und x2x2=x2=1.

Deutlich intuitiver ist, die Funktion rekursiv anhand ihrer Teilfunktionen zu berechnen. Dabei gibt der modifizierte Funktionsaufruf ein Zweier-Tupel aus dem Wert der Funktion und der partiellen Ableitung zurück und erwartet als Argument den Wert aller Variablen und der partiellen Ableitung aller unabhängigen Variablen:

 (y0,y0)=y0AD(x1,x2,x1,x2)=(x1+x2,x1+x2),(y1,y1)=y1AD(a,y0,y0)=(asin(y0),acos(y0)y0),(y2,y2)=y2AD(y0,y1,y0,y2)=(y0y1,y0y1+y0y1).

Pseudocode

Der Vorwärtsmodus berechnet die Funktion und die Ableitung (aber jeweils nur für eine unabhängige Variable) in einem Schritt. Der zugehörige Methodenaufruf erwartet den abzuleitenden Ausdruck Z und die Variable V, nach der abgeleitet wird. Die Methode gibt ein Wertepaar aus der ausgewerteten Funktion und der zugehörigen Ableitung zurück. Die Methode arbeitet den Ausdrucksbaum rekursiv ab, bis eine Variable erreicht wird. Ist das die Variable, nach der abgeleitet wird, so ist deren Ableitung 1, 0 anderenfalls. Anschließend werden die partielle Funktion sowie die partielle Ableitung ausgewertet.[1]

tuple<float,float> auswerten(Ausdruck Z, Ausdruck V) {
   if istVariable(Z)
      if (Z=V) return {wertVon(Z),1};
      else return {wertVon(Z),0};
   else if (Z = X + Y)
      {x,x'} = auswerten(X,V);
      {y,y'} = auswerten(Y,V);
      return {x+y, x'+y'};
   else if (Z = X - Y)
      {x,x'} = auswerten(X,V);
      {y,y'} = auswerten(Y,V);
      return {x-y, x'-y'};
   else if (Z = X * Y)
      {x,x'} = auswerten(X,V);
      {y,y'} = auswerten(Y,V);
      return {x*y, x'*y+x*y'};
}

Rückwärtsmodus

Automatisches Differenzieren im Rückwärtsmodus
Beispiel für automatisches Differenzieren im Rückwärtsmodus

Der Rückwärtsmodus besteht aus zwei Phasen.

  1. Das Originalprogramm wird ausgeführt und die Werte der ausgewerteten Teil-Funktionen zwischengespeichert.
  2. Das Originalprogramm wird rückwärts ausgeführt. Dabei werden die äußeren partiellen Ableitungen zur Berechnung der inneren verwendet. Dabei werden die Werte aus Phase 1 verwendet.

Beispiel

Zuerst werden die Teil-Funktionen der Funktion f(x1,x2,a)=(x1+x2)asin(x1+x2)=y2 ausgewertet:

y0=x1+x2(1)y1=asin(y0)(2)y2=y0y1(3)

Anschließend wird die äußerste partielle Ableitung y2y1 (4) gebildet, um daraus die inneren Ableitungen zu berechnen. Für die Ableitung y2y0 muss man berücksichtigen, dass y0 in (2) und (3) vorkommt: aus (2) stammt der Teil y0(acos(y0)), aus (3) der Teil y1, die beide addiert werden.

y2y1=y2y2y2y1=1y0=y0(4)y2y0=y2y1y1y0=y0(acos(y0))+y1(5)y2x1=y2y0y0x1=(y0(acos(y0))+y1)1(6)y2x2=y2y0y0x2=(y0(acos(y0))+y1)1(7)

Aufgrund der Distributivität könnte man x1,x2,y0 in x1=x11+x12, x2=x21+x22 und y01=x11+x21,y02=x12+x22 aufteilen mit y2x1=y2x11+y2x12,y2x2=y2x21+y2x22.

Pseudocode

Der Rückwärtsmodus berechnet alle Komponente der Jacobi-Matrix in zwei Schritten: Im Vorwärtsschritt wird zuerst die Funktion ausgewertet und die partiellen Ergebnisse zwischengespeichert. Im Rückwärtsschritt werden die partiellen Ableitungen berechnet und der zuvor abgeleitete Wert zurückpropagiert (backpropagation). Der zugehörige Methodenaufruf erwartet den abzuleitenden Ausdruck Z und seed mit dem abgeleiteten Wert des Elternausdrucks. Für den obersten Ausdruck, Z nach Z abgeleitet, ist dieser 1. Die Methode arbeitet den Ausdrucksbaum rekursiv ab, bis eine Variable erreicht wird, und addiert den aktuellen seed-Wert zu dem Ausdruck für die Ableitung der Komponente.[2][3]

void ableiten(Ausdruck Z, float seed) {
   if (Z = X + Y)
      ableiten(X,seed);
      ableiten(Y,seed);
   else if (Z = X - Y)
      ableiten(X,seed);
      ableiten(Y,-seed);
   else if (Z = X * Y)
      ableiten(X,wertVon(X)*seed);
      ableiten(Y,seed*wertVon(Y));
   else if istVariable(Z)
      partielleAbleitungVon(Z) += seed;
}

Effizienzbetrachtungen

Die Effizienz von AD-Algorithmen hängt vom Modus und dem Parameter p ab. Die Wahl des Modus und des Parameters p hängt davon ab, wofür die Jacobimatrix berechnet wird. Es bezeichne

Tf die Zeit f zu berechnen
Mf der Speicherbedarf dieser Rechnung
TJS die Zeit f und JS zu berechnen
MJS der Speicherbedarf dieser Rechnung
TSJ die Zeit f und SJ zu berechnen
MSJ der Speicherbedarf dieser Rechnung

Für die beiden vorgestellten Modi gilt

  1. Vorwärtsmodus: TJSTfp,MJSMfp
  2. Rückwärtsmodus: TSJTfp,MSJMfTf

Der Vorwärtsmodus hat den Vorteil, dass keine Zwischenergebnisse für einen zweiten Durchgang gespeichert werden müssen, und den Nachteil, dass er pro Komponente einmal ausgeführt werden muss. Dennoch basieren beide AD-Algorithmen auf der Berechnung partieller Ableitungen. Ein Compiler ist daher in der Lage den Code des Vorwärtsmodus zu optimieren, sodass partielle Ableitungen, die für mehr als eine Komponente benötigt werden, auch nur einmal – wie im Rückwärtsmodus – berechnet werden.[1]

Die Berechnung als Kette von Berechnungen

Gegeben: s=g(u,v), Frage: Wie verändert sich die Ableitung von s während der zweiten Phase, um die Ableitungen von u und v zu erhalten?

f(x) wird als Sequenz von Programmen interpretiert. Im Beispiel „Optimierung eines Tragflügels“ umfasst die Berechnung die folgenden Schritte.

  • Überlagerung des Tragflügels mit sogenannten „Mode-Funktionen“
Vorlage:Center
  • Berechnung eines Gitters, das um den Tragflügel herum gelegt wird
Vorlage:Center
Vorlage:Center.

Insgesamt ergibt sich die Funktion

  f=f(G(A(x)))fx=fGGAAx

Mit einem naiven Ansatz würde man drei Matrizen fG, GA, Ax berechnen und dann zwei Matrizenmultiplikationen durchführen. Der Nachteil des Vorwärtsmodus ist allerdings:

  TfGS17428Tf(G)

im Rückwärtsmodus würde analog

  TSfG17428Tf(G)

gelten. Ein besserer Ansatz ist, das Ergebnis einer Berechnung jeweils als Saatmatrix der folgenden einzusetzen.

  1. Wähle I8x88x8 als Saatmatrix der ersten Rechnung
  2. Das Ergebnis der ersten Rechnung als Saatmatrix der zweiten Rechnung
  3. Das Ergebnis der zweiten Rechnung als Saatmatrix der dritten Rechnung

also

  1. AxI8×88×200
  2. GAAx8×17428
  3. fGGx8×1

Da die Zeilenzahl jeder Matrix 8 (p=8) ist, erhöht sich der Zeit- und Speicherbedarf gegenüber der regulären Auswertung von f(x) um höchstens 8.

Literatur

Einzelnachweise