Reduktions-Operator

Aus testwiki
Zur Navigation springen Zur Suche springen

In der Informatik bezeichnet ein Reduktions-Operator (englisch: Reduction Clause) einen Operator, welcher oft in der parallelen Programmierung eingesetzt wird, um Elemente eines Arrays auf ein einzelnes Ergebnis zu reduzieren. Reduktions-Operatoren sind assoziativ und häufig (aber nicht immer) kommutativ.[1][2][3] Die Reduktion von Mengen ist ein wichtiger Bestandteil von Programmiermodellen wie MapReduce, in welchen ein Reduktions-Operator auf alle Elemente angewendet wird, bevor sie reduziert werden. Andere parallele Algorithmen benutzen Reduktions-Operatoren als primäre Operationen, um komplexere Probleme zu lösen. Viele dieser Operatoren können auch benutzt werden, um Daten auf alle Prozessoren zu verteilen.

Theorie

Ein Reduktions-Operator kann dabei helfen, ein Problem in viele Teilprobleme aufzuteilen, indem die Lösungen der Teilprobleme genutzt werden, um das finale Ergebnis zu erhalten. Sie ermöglichen es, bestimmte serielle Operationen parallel auszuführen und dadurch die Anzahl der notwendigen Berechnungsschritte zu reduzieren. Ein Reduktions-Operator speichert die Ergebnisse der Teilprobleme in einer privaten Kopie der Variable. Diese privaten Kopien werden am Ende zu einer gemeinsamen Kopie zusammengeführt.

Ein Operator ist ein Reduktions-Operator, falls

  • er ein Array auf einen einzelnen Wert reduzieren kann[1] und
  • das finale Ergebnis aus den Teilergebnissen erhalten werden kann.[1]

Diese beiden Voraussetzungen sind für kommutative und assoziative Operatoren erfüllt, welche auf alle Elemente des Arrays angewendet werden.

Beispiele hierfür sind die Addition und Multiplikation sowie bestimmte logische Operatoren (und, oder etc.).

Ein Reduktions-Operator kann in konstanter Zeit auf eine Menge

V={v0=(e00e0m1),v1=(e10e1m1),,vp1=(ep10ep1m1)}

von p Vektoren mit jeweils m Elementen angewendet werden. Das Ergebnis r der Operation ist die Kombination der Elemente

r=(e00e10ep10e0m1e1m1ep1m1)=(i=0p1ei0i=0p1eim1)

und muss nach der Ausführung bei einem designierten Prozessor gespeichert werden. Wenn das Ergebnis r auf allen Prozessoren zur Verfügung stehen soll, wird dies oft Allreduce genannt. Ein optimaler sequenzieller Linearzeit-Algorithmus für Reduktion kann nach und nach von vorne nach hinten angewendet werden, wobei jeweils zwei Vektoren mit dem Ergebnis der Operation auf diese Vektoren ersetzt werden, wobei die Menge der Vektoren jedes Mal um eins reduziert wird. Hierfür werden (p1)m Schritte benötigt. Sequenzielle Algorithmen sind nicht schneller als Linearzeit-Algorithmen, parallele Algorithmen hingegen können die Laufzeit verkürzen.

Beispiel

Gegeben sei ein Array [2,3,5,1,7,6,8,4]. Die Summe des gesamten Arrays kann seriell berechnet werden, indem das Array sequenziell auf eine einzelne Summe mit Hilfe des '+' Operators reduziert wird. Startet man von vorne, ergibt sich folgende Berechnung:

((((((2+3)+5)+1)+7)+6)+8)+4=36

Da '+' sowohl assoziativ als auch kommutativ ist, ist '+' ein Reduktions-Operator. Daher kann diese Reduktion auch parallel auf mehreren Kernen erfolgen, wobei jeder Kern nur die Summe einer Teilmenge des Arrays berechnet und der Reduktions-Operator diese Teilergebnisse zusammenführt. Mit Hilfe eines Binärbaums können auf 4 Kernen jeweils (2+3), (5+1), (7+6) und (8+4) berechnet werden. Daraufhin können zwei Kerne (5+6) und (13+12) berechnen und am Ende berechnet ein einzelner Kern (11+25)=36. Mit 4 Kernen kann die Summe also in log28=3 statt 7 Schritten berechnet werden, wie es bei dem seriellen Algorithmus der Fall ist. Der Algorithmus berechnet ((2+3)+(5+1))+((7+6)+(8+4)), was auf Grund der Assoziativität der Addition dem gleichen Ergebnis entspricht. Die Kommutativität wäre wichtig, wenn es einen Hauptkern gäbe, welcher die Teilaufgaben auf andere Kerne verteilt, da hierbei die Teilergebnisse in unterschiedlicher Reihenfolgen zurückkommen könnten. Die Eigenschaft der Kommutativität würde hier garantieren, dass das Ergebnis weiterhin das Gleiche ist.

Gegenbeispiel

Matrixmultiplikation ist kein Reduktions-Operator, da diese Operation nicht kommutativ ist. Würden die Kerne ihre Teilergebnisse in beliebiger Reihenfolge zurückgeben, wäre das Endergebnis höchstwahrscheinlich falsch. Allerdings ist Matrixmultiplikation assoziativ, weshalb das Endergebnis korrekt ist, wenn man dafür sorgt, dass die Teilergebnisse in der richtigen Reihenfolge sind. Dies ist bei der Benutzung von Binärbäumen der Fall.

Algorithmen

Binomial-Baum Algorithmen

Bezüglich der parallelen Algorithmen gibt es hauptsächlich zwei Modelle, die Parallel Random Access Machine als eine Erweiterung des Arbeitsspeichers mit gemeinsamen Speicher zwischen den Kernen und Bulk Synchronous Parallel Computers, bei welchen die Kerne kommunizieren und synchronisiert werden. Beide Modelle haben unterschiedliche Effekte auf die Zeitkomplexität, weshalb hier beide vorgestellt werden.

PRAM-Algorithmus

Dieser Algorithmus nutzt eine weit verbreitete Methode, wobei

p

eine Zweierpotenz ist. Eine Umkehrung wird häufig genutzt um die Elemente zu verteilen.[4][5][6]

Eine Visualisierung des Algorithmus mit p=8,m=1 und Addition als Reduktions-Operator
for k0 to log2p1 do
for i0 to p1 do in parallel
if pi is active then
if bit k of i is set then
set pi to inactive
else if i+2k<p
xixixi+2k

Der binäre Operator für Vektoren ist elementweise definiert, sodass

(ei0eim1)(ej0ejm1)=(ei0ej0eim1ejm1).

Der Algorithmus beruht außerdem auf den Annahmen, dass am Anfang xi=vi für alle i gilt und dass die Kerne p0,p1,pn1 genutzt werden. In jeder Iteration wird die Hälfte der Kerne inaktiv, diese tragen nicht mehr zur Berechnung bei. Die Animation zeigt eine Visualisierung des Algorithmus mit Addition als Operator. Senkrechte Linien stellen die Kerne dar, in welchen die Berechnung der Elemente auf der Linie berechnet werden. Unten sind die acht Elemente der Eingabe dargestellt. Jeder Schritt in der Animation entspricht einem parallelen Schritt in der Ausführung des Algorithmus. Ein aktiver Kern pi wendet den Operator auf ein für ihn lokal verfügbares Element xi sowie xj an, wobei j der kleinste Index mit j>i ist, sodass im aktuellen Schritt pj inaktiv wird. xi und xj sind nicht notwendigerweise Teil der Eingabe, da diese Speicherstellen überschrieben und für vorher berechnete Ausdrücke wiederverwendet werden. Um die Kerne untereinander zu koordinieren ohne weiteren Aufwand durch Kommunikation zwischen ihnen zu verursachen, macht sich der Algorithmus die Indexierung der Kerne durch 0 bis p1 zunutze. Jeder Kern macht von seinem k-ten least significant bit abhängig, ob er inaktiv wird oder den Operator auf sein eigenes Element sowie das Element mit dem Index, bei welchem das k-te last significant bit nicht gesetzt ist, anwendet. Das zugrundeliegende Schema hierfür ist ein Bionomial-Baum, daher der Name des Algorithmus.

Am Ende das Algorithmus liegt das Ergebnis nur p0 vor. Für eine Allreduce-Operation muss das Ergebnis allen Kernen vorliegen, was durch einen anschließenden Broadcast ermöglicht wird. Die Anzahl der Kerne p sollte eine Zweierpotenz sein, ansonsten kann die Anzahl bis zur nächsten Zweierpotenz aufgefüllt werden. Es gibt Algorithmen, welche speziell auf diesen Fall zugeschnitten sind.[7]

Laufzeitanalyse

Die äußerste Schleife wird log2p Mal ausgeführt. Die Zeit für jeden parallelen Durchlauf liegt in 𝒪(m), da jeder Kern entweder zwei Vektoren kombiniert oder inaktiv wird. Daher gilt für die parallele Zeit T(p,m)=𝒪(log(p)m). Um Schreib-Lese-Konflikte zu vermeiden, kann Exclusive Read, Exclusive Write verwendet werden. Für den Speedup gilt

S(p,m)𝒪(TseqT(p,m))=𝒪(plog(p)),

daher gilt für die Effizienz

E(p,m)𝒪(S(p,m)p)=𝒪(1log(p)).

Die Effizienz leidet unter der Tatsache, dass in jedem Schritt die Hälfte aller Kerne inaktiv wird, d. h. im Schritt i sind p2i Kerne aktiv.

Verteilte Speicher Algorithmen

Im Gegensatz zu den PRAM-Algorithmen, teilen sich die Kerne hier keinen gemeinsamen Speicher. Daher müssen die Daten explizit zwischen den Kernen ausgetauscht werden, wie der folgende Algorithmus zeigt.

for k0 to log2p1 do
for i0 to p1 do in parallel
if pi is active then
if bit k of i is set then
send xi to pi2k
set pk to inactive
else if i+2k<p
receive xi+2k
xixixi+2k

Der einzige Unterschied zu der PRAM Version von oben liegt in der Verwendung von expliziten Primitiven für die Kommunikation. Das Prinzip bleibt jedoch das gleiche.

Laufzeitanalyse

Die Kommunikation zwischen den Kernen verursacht etwas Overhead. Eine einfache Analyse des Algorithmus nutzt das BSP-Modell und beachtet die notwendige Zeit Tstart, um einen Datenaustausch zu initiieren sowie die notwendige Zeit Tbyte, um ein Byte Daten zu senden. Die resultierende Laufzeit ist dann Θ((Tstart+nTbyte)log(p)), wobei m Elemente eines Vektors die Größe n haben.

Pipeline Algorithmus

Visualization of the pipeline-algorithm with p=5,m=4 and addition as the reduction operator.

Für die verteilte Speicher Modelle kann es Sinn ergeben, die Daten in Form einer Pipeline auszutauschen. Dies gilt insbesondere, wenn

Tstart

klein im Vergleich zu

Tbyte

ist. Normalerweise teilen lineare Pipelines die Daten in kleinere Teile auf und verarbeiten diese stufenweise. Im Gegensatz zu den Bionomial-Baum Algorithmen macht sich der Pipeline Algorithmus die Tatsache zunutze, dass Vektoren nicht untrennbar sind: Der Operator kann auch auf einzelne Elemente anwendet werden.[8]

for k0 to p+m3 do
for i0 to p1 do in parallel
if ik<i+mip1
send xiki to pi+1
if i1k<i1+mi0
receive xi1k+i1 from pi1
xik+i1xik+i1xi1k+i1

Es ist wichtig, dass das Senden und Empfangen gleichzeitig ausgeführt wird, damit der Algorithmus korrekt funktioniert. Das Ergebnis befindet sich am Ende in pp1. Die Animation zeigt die Ausführung des Algorithmus auf Vektoren der Größe 4 mit 5 Kernen. Zwei Schritte in der Animation entsprechen einem Schritt in der parallelen Ausführung.

Laufzeitanalyse

Die Anzahl der Schritt in der parallelen Ausführung beträgt p+m2, es braucht p1 Schritte, bis der letzte Kern sein erstes Element erhält und weitere m1 Schritte, bis alle Elemente angekommen sind. Im BSP-Modell beträgt die Laufzeit daher T(n,p,m)=(Tstart+nmTbyte)(p+m2), wobei n die Größe eines Vektors in Bytes ist.

Auch wenn m ein fester Wert ist, so ist es möglich, Elemente von Vektoren logisch zu gruppieren und dadurch m zu reduzieren. Zum Beispiel kann eine Probleminstanz mit Vektoren der Länge vier gelöst werden, indem die Vektoren in ihre ersten und letzten beiden Elemente aufgeteilt werden, welche dann immer gemeinsam gesendet und verrechnet werden. In diesem Fall werden in jedem Schritt doppelt so viele Daten gesendet, allerdings hat sich die Anzahl der Schritte etwa auf die Hälfte verringert. m ist also halbiert, während die Größe in Bytes n gleich bleibt. Die Laufzeit T(p) für diesen Ansatz hängt also von m ab, was optimiert werden kann, wenn Tstart und Tbyte bekannt sind. Es ist optimal für

m=n(p2)TbyteTstart,

wobei angenommen wird, dass dies in einem kleineren m resultiert, welches das ursprüngliche teilt.

Anwendungen

Reduktion ist eine der wichtigsten kollektiven Operationen im Message Passing Interface, wo die Leistung des genutzten Algorithmus wichtig ist und ständig für verschiedene Anwendungsfälle ausgewertet wird.[9] Operatoren können als Parameter für MPI_Reduce und MPI_Allreduce verwendet werden, wobei der Unterschied darin liegt, ob das Ergebnis am Ende in allen oder nur einem Kern vorliegt. Für MapReduce sind effiziente Reduktions-Algorithmen wichtig, um große Datensätze zu verarbeiten, auch in großen Clustern.[10][11]

Manche parallele Sortieralgorithmen nutzen Reduktionen um große Datensätze zu verarbeiten.[12]

Literatur

Einzelnachweise