Schönhage-Strassen-Algorithmus

Aus testwiki
Zur Navigation springen Zur Suche springen

Der Schönhage-Strassen-Algorithmus ist ein Algorithmus zur Multiplikation zweier n-stelliger ganzer Zahlen. Er wurde 1971 von Arnold Schönhage und Volker Strassen entwickelt.[1] Der Algorithmus basiert auf einer sehr schnellen Variante der diskreten schnellen Fourier-Transformation sowie einem geschickten Wechsel zwischen der Restklassen- und der zyklischen Arithmetik in endlichen Zahlenringen.

Der Schönhage-Strassen-Algorithmus terminiert in O(nlog(n)log(log(n))) (siehe Landau-Notation), wenn als Effizienzmaß die Bitkomplexität auf mehrbändigen Turingmaschinen, also die maximale Laufzeit des Algorithmus gemessen als benötigte Bitoperationen in Abhängigkeit von der Bitlänge n der Eingabegrößen gewählt wird. Diese Komplexität stellt eine Verbesserung sowohl gegenüber dem naiven aus der Schule bekannten Algorithmus der Laufzeit O(n2) als auch gegenüber dem 1962 entwickelten Karazuba-Algorithmus mit einer Laufzeit von O(nlog2(3)) sowie dessen verbesserter Variante, dem Toom-Cook-Algorithmus mit O(n1+ε) Laufzeit dar.

Der Schönhage-Strassen-Algorithmus war von 1971 bis 2007 der effizienteste bekannte Algorithmus zur Multiplikation großer Zahlen; 2007 veröffentlichte Martin Fürer eine Weiterentwicklung des Algorithmus mit der noch niedrigeren asymptotischen Komplexität nlog(n)2O(log*(n)), wobei log*(n) der iterierte Logarithmus von n ist.[2] Durch Optimierungen des Algorithmus von Fürer erreichten David Harvey, Joris van der Hoeven und Grégoire Lecerf 2014 eine Verbesserung der asymptotischen Laufzeit auf O(nlog(n)23log*(n)).[3] Harvey und van der Hoeven stellten 2021 schließlich einen weiteren Algorithmus vor, der die von Schönhage und Strassen postulierte Laufzeit von O(nlog(n)) erreicht.[4]

Bedeutung

Bis 2007 galt der Schönhage-Strassen-Algorithmus als effizientester bekannter Algorithmus für ganzzahlige Multiplikation. Als untere Schranke gibt es für den allgemeinen Fall nur die (triviale) lineare Laufzeit, an die sich der Algorithmus mit wachsender Zahlenlänge annähert. Allerdings haben die Forscher Hinweise dafür gefunden, dass die Schranke O(nlog(n)) niemals unterboten werden kann. Selbst bei modernen Computern ist diese Methode der Berechnung erst bei Zahlen mit mehreren tausend Stellen effizienter als der Karazuba-Algorithmus. Dies liegt wohl allerdings weniger am Overhead des Schönhage-Strassen-Algorithmus, sondern vielmehr an der seit Jahrzehnten typischen Designoptimierung der Computerprozessoren, die dem Erreichen schneller Gleitkommaoperationen den Vorzug vor der Arithmetik in endlichen Restklassenringen ganzer Zahlen gibt.

Für die Suche nach den Algorithmen mit der besten (Zeit-)Komplexität in der Computer-Algebra genießt der Schönhage-Strassen-Algorithmus zentrale Bedeutung.

Algorithmus

Grundidee und Terminologie

Der Schönhage–Strassen-Algorithmus basiert auf der schnellen diskreten Fourier-Transformation (DFT). Dieses Beispiel zeigt die Berechnung von 1234 × 5678 = 7006652. Die Berechnung findet modulo 337 statt. Um die Anschaulichkeit zu verbessern, wird anstelle der Basis 2 mit Basis 10 gearbeitet.

Um zwei ganze Zahlen a und b zu multiplizieren, wird im Groben folgendes Schema angewandt:

  1. Aufspaltung der Zahlen (in Binärdarstellung) a und b in Stücke passender Länge
  2. Schnelle diskrete Fourier-Transformation (DFT) der beiden Stückfolgen
  3. Komponentenweise Multiplikation der transformierten Stücke
  4. Rücktransformation (inverse Fouriertransformation) der Ergebnisse
  5. Zusammensetzen der Ergebnisstücke zur Ergebniszahl

Die im mittleren Schritt durchzuführenden kleinen Multiplikationen werden im rekursiven Sinne wiederum durch den Schönhage-Strassen-Algorithmus ausgeführt.

Um zu verstehen, warum das Ergebnis das Produkt der Zahlen a und b ist, betrachtet man die Polynome

A=i=02n1aiXi und B=i=02n1biXi

Setzt man X=2 ein, so erhält man gerade die Binärdarstellung der Zahlen a und b. Zu berechnen ist c=C(2) für das Produktpolynom

C=l=02n+11i=0laibliXl

Wir bestimmen die Fouriertransformierte der Koeffiziententupel von A und B:

a^k=i=02n1aiwik für k=0,,2n1
b^k=j=02n1bjwjk für k=0,,2n1

Anders gesagt wertet man die beiden Polynome an den Stellen wk aus. Multipliziert man nun diese Funktionswerte, so ergeben sich die entsprechenden Funktionswerte des Produktpolynoms

C=AB.

Um das Polynom C selbst zu gewinnen, müssen wir die Transformation rückgängig machen:

c^l=1/2n+1k=02n+11a^kb^kwlk für l=0,,2n+11
c^l=1/2n+1i,j,k=02n+11aibjwik+jklk für l=0,,2n+11
c^l=1/2n+1i,j,k=02n+11aibjw(i+jl)k für l=0,,2n+11

Nach Definition der Einheitswurzeln gilt w2n+1=1. Diese genügt folgender Identität geometrischer Summen von Einheitswurzeln:

k=02n+11wlk={2n+1l=00l0 für l=0,...,2n+11

denn

k=02n+11xk=x2n+11x1 für x1

Somit gilt:

c^l=i+j=laibj für l=0,,2n+11

Im Artikel Diskrete Fourier-Transformation sind die mathematische Grundlagen dieser Transformation weiter ausgeführt. Da bei der Transformation 2n Summen mit jeweils 2n Termen entstehen, haben wir bei einer klassischen Berechnung der Terme (etwa durch das Horner-Schema) nach wie vor eine quadratische Laufzeit. Mittels der schnellen Fourier-Transformation kann man diese Werte schneller berechnen. Diese Berechnung beruht auf folgendem Teile-und-herrsche-Prinzip:

a^keven(wj)=i=02n1ajw2jk
a^kodd(wj)=i=02n1ajw(2j+1)k
a^k(wj)=akeven(w2j)+wkakodd(w2j)

Man setzt Teillösungen mittels einfacher Operationen (Addition und einfache Multiplikation) zusammen. Damit können die Transformationen in Zeit O(NlogN) berechnet werden. Durch das Runden der komplexen Einheitswurzeln auf feste Stellenlänge ergeben sich jedoch Rechenfehler. Um diese auszugleichen, muss für ein resultierendes Bit mit mindestens O(logN) Bits gerechnet werden. Daraus ergibt sich eine Gesamtlaufzeit von O(N(logN)2). Bei der Schönhage-Strassen-Variante rechnen wir stattdessen in einem Restklassenring und vermeiden damit die Rechenfehler der komplexen Zahlen.

Des Weiteren ist die Multiplikation keine reine Faltung, sondern es kann auch zu Überträgen kommen; nach Durchführen der FT und iFT müssen diese passend behandelt werden.

Die Aufgabe der Multiplikation zweier ganzer Zahlen wird nun wie folgt konkretisiert:

Es seien die zwei zu multiplizierenden Zahlen a,b in Binärzifferdarstellung gegeben. Weiter sei N die maximale Länge (also Binärziffernanzahl) der beiden Zahlen.

Nach passender Behandlung der Vorzeichen der beiden Zahlen sowie der trivialen Sonderfälle a=0 und b=0 (was mit linearem Aufwand O(N) machbar ist) darf man davon ausgehen, dass a,b natürliche Zahlen sind. Der Schönhage-Strassen-Algorithmus löst diese Aufgabe in O(NlogNloglogN).

Theoretische Vorbereitungen

Superschnelle DFT

Die oben angesprochene superschnelle DFT, die das Kernstück des Algorithmus darstellt, muss etwas ausführlicher erläutert werden, da sie hier sehr speziell eingesetzt wird.

Es sei R ein kommutativer unitärer Ring. In R sei das Element 2 eine Einheit; weiterhin sei wR eine 2nte Einheitswurzel (also w2n=1), die die Gleichheit w2n1=1 erfüllt. Dann lässt sich die Berechnung der diskreten Fouriertransformation (DFT) im Produktraum R2n (dies ist eine Kurznotation für R(2n); der Begriff Vektorraum ist hier nur für den Fall, dass R ein Körper ist, üblich) wie folgt in einer schnellen Variante (als FFT) durchführen:

Zu berechnen ist für a=(a0,,a2n1)R2n die Transformierte a^R2n mit

a^k=j=02n1ajwjk für k=0,,2n1.

Indem wir die Indizes k=ν=0n1kν2ν und j=ν=0n1jν2n1ν in Binärdarstellung aufschreiben, wobei wir dies bei der Zahl j in umgekehrter Reihenfolge tun, ist die Transformierte a^ wie folgt optimiert berechenbar:

Es seien

A0(j0,jn1)=aj für j=0,,2n1

und

Ar+1(k0,,kr,jr+1,,jn1)=
=Ar(k0,,kr1,0,jr+1,,jn1)+
Ar(k0,,kr1,1,jr+1,,jn1)w2n1r(kr2r++k020)
=jr=01Ar(k0,,kr1,jr,,jn1)wjr2n1r(kr2r++k020).

Die geschlossene Darstellung für diese Zwischenterme ist

Ar+1(k0,,kr,jr+1,,jn1)=
=jr=01j0=01ajw(j02n1++jr2n1r)(kr2r++k020).

(Zum Nachrechnen dieser Darstellung beachte man w(j02n1++jr12nr)kr2r=1).

Diese Rekursion liefert die gewünschten Fourierkoeffizienten a^k=An(k0,,kn1).

Aufgrund der Eigenschaft w2n1=1 können wir den Rekursionsschritt etwas berechnungsfreundlicher umformen zu

Ar+1(k0,,kr1,0,jr+1,,jn1)=
=Ar(k0,,kr1,0,jr+1,,jn1)+Ar(k0,,kr1,1,jr+1,,jn1)wx

und

Ar+1(k0,,kr1,1,jr+1,,jn1)=
=Ar(k0,,kr1,0,jr+1,,jn1)Ar(k0,,kr1,1,jr+1,,jn1)wx

mit dem gleichen Exponenten x=2n1r(kr12r1++k020).

Die Umkehrtransformation, also die inverse FFT, gelingt, da wir vorausgesetzt haben, dass 2 im Ring R invertierbar ist:

Ar(k0,,kr1,0,jr+1,,jn1)=
=21(Ar+1(k0,,kr1,0,jr+1,,jn1)+Ar+1(k0,,kr1,1,jr+1,,jn1)

sowie

Ar(k0,,kr1,1,jr+1,,jn1)=
=21wx(Ar+1(k0,,kr1,0,jr+1,,jn1)Ar+1(k0,,kr1,1,jr+1,,jn1),

wobei wiederum x=2n1r(kr12r1++k020) ist.

In der Anwendung im Schönhage-Strassen-Algorithmus wird tatsächlich nur eine halbierte FFT benötigt; gemeint ist damit folgendes: Beginnen wir im 1. Schritt der Rekursion mit der Berechnung

A1(1,j1,,jn1)=A0(0,j1,,jn1)A0(1,j1,,jn1)=ajaj+2n1

nur für k0=1 und schränken wir die weiteren Schritte der Rekursion ebenso auf k0=1 ein, so berechnen wir gerade alle a^k für ungerade Werte k. Will man umgekehrt aus diesen a^k für ungerade k (das sind 2n1 Stück) lediglich die Differenzen ajaj+2n1 der ursprünglichen aj zurückgewinnen, so genügt auch in der Rückrichtung die halbierte Rekursion.

Im Schönhage-Strassen-Algorithmus wird die geschilderte schnelle Fouriertransformation für endliche Zahlenringe Fn mit Fermatzahlen Fn=2(2n)+1 benötigt.

Hinweis zur Notation: Für den Restklassenring /k benutzen wir hier die kürzere Schreibweise k, die lediglich im Kontext der p-adischen Zahlen zu Verwechslungen führen könnte.

Als Einheitswurzel wird im Ring Fn die Zahl 2 (oder je nach Kontext auch eine geeignete Potenz von 2) zum Einsatz kommen. Die beim FFT-Algorithmus durchzuführenden Multiplikationen sind dann von der Form x2k; allerdings sind sie nicht als reine Shift-Operationen durchführbar, da das Reduzieren eines größeren Zwischenergebnisses modulo Fn noch nachgeschoben werden muss. Hier greift eine der brillanten Ideen von Schönhage und Strassen: Sie betten den Ring (ausgestattet mit der Restklassenarithmetik) passend in einen größeren, mit der zyklischen Arithmetik ausgestatteten Überring ein. Dieser Überring hat eine 2-Potenz als Ordnung, so dass in ihm die entsprechende Multiplikation tatsächlich als reine Shift-Operation durchführbar ist. Diesen Trick kann man in einem schönen Struktursatz über Restklassen- und zyklische Arithmetik in endlichen Zahlenringen zusammenfassen.

Struktursatz über zyklische Arithmetik

Der Struktursatz über zyklische Arithmetik lässt sich formal wie folgt fassen:

Für eine Zweierpotenz D=2n mit einer natürlichen Zahl n gilt

(D+1,+,)(D2,,)/(D+1).

Hierbei bezeichnet (D+1,+,) die durch die Repräsentanten 0,,D darstellbaren Restklassen modulo D+1 ausgestattet mit der Restklassenarithmetik, d. h. mit der Addition und Multiplikation modulo D+1. Die in diesem Restklassenring vorkommenden Zahlen können mit n+1 Binärziffern dargestellt werden.

Die auf der rechten Seite vorkommende Struktur (D2,,) bezeichnet die Restklassen modulo der Zahl D2, die allerdings nicht mit der Restklassenarithmetik, sondern abweichend mit der zyklischen Arithmetik ausgestattet werden. Hierbei werden bei Zwischenergebnissen, die zu groß werden, Überträge aufgehoben und auf das Endergebnis additiv aufgeschlagen. Dies entspricht in Binärzifferdarstellung einer Verschiebung der überständigen Binärziffern (rechtsbündig an die niedrigsten Zifferpositionen gestellt) mit nachfolgender Addition. Beispielsweise ergibt die Addition a+1 mit a=D21 nicht den Wert D20, sondern den Wert D2+11. Aus der so erhaltenen Zahlenstruktur mit zyklischer Arithmetik wird nun noch der Faktorring modulo D+1 gebildet. Es werden also die Endergebnisse noch modulo D+1 reduziert.

Damit besagt dieser Struktursatz folgendes: Das modulo-Rechnen in D+1 kann ebenso ersetzt werden durch das zyklische Rechnen im größeren Zahlenraum D2 mit nachfolgendem Reduzieren modulo D+1.

Entscheidend für das Gelingen der in diesem Struktursatz vorgestellten Einbettung ist die Eigenschaft, dass die größte darstellbare Zahl F im zyklischen Zahlenraum (hier ist dies die Zahl D21) die Zahl 0 aus dem Restklassenring D+1 repräsentiert. Hierfür ist die Bedingung (D+1)|F notwendig. Damit die zyklische Arithmetik aber überhaupt sinnvoll definiert werden kann, muss andererseits F+1 eine Zweierpotenz sein. Zusammen ergibt sich, dass F=D21 die optimale Wahl für die Größe des zyklischen Einbettungsraumes darstellt.

Der klassische Restklassenring (D2,+,) wäre für die Einbettung dagegen nicht geeignet, denn in diesem Ring gilt 22n=D2=0, d. h. die Zahl 2 ist in diesem Ring ein Nullteiler.

Durchführung

Haben wir die zu multiplizierenden Zahlen a,b mit N2m Binärziffern vorliegen, so führen wir je nachdem, ob m gerade oder ungerade ist, unterschiedliche Rekursionsschritte aus, um die Stellenzahl in einem Einzelschritt zu logarithmieren:

Rekursionsschritt für ungerades m

Diesen Schritt der Rückführung von m=2n1 auf n führen wir mit der Komplexität O(2nψ(2n)+n22n) durch.

Es seien a,bFm mit m=2n1 und der Fermatzahl Fm=22m+1 zu multiplizieren. Wir werden in diesem Schritt die Rückführung auf die Fermatzahl Fn=22n+1 vollziehen.

Für die zu den beiden Fermatzahlen gehörenden Zweierpotenzen führen wir die Abkürzungen

D=Fn1=22n

und

E=Fm1=222n1=D2n1

ein. Die halbierte Stellenzahl von D wird unsere Stückelungsgröße werden, d. h. wir entwickeln a und b nach Potenzen von D:

a=i=02naiDi und b=i=02nbiDi,

wobei für die Einzelstücke 0ai,bi<D gilt. In Binärdarstellung entspricht diese Zerlegung einer einfachen Gruppierung der Bitfolgen in Stücke der Länge 2n1 Bits.

Eine kleine Schwäche des Algorithmus (die allerdings der erreichten Komplexitätsschranke keinen Abbruch tut) offenbart sich jetzt. Um die superschnelle DFT auf die Stückfolgen (a0,,a2n) und (b0,,b2n) anwenden zu können, müssen diese zur nächsten Zweierpotenzlänge mit Nullen aufgefüllt werden; die Zahlendarstellung wird also künstlich verlängert zu

a=i=02n+11aiDi und b=j=02n+11bjDj.

Vermöge des oben erwähnten Struktursatzes zur zyklischen Arithmetik wechseln wir nun vom Restklassenring E+1 über zum Quotientenraum (E2,,)/(E+1) mit der zyklischen Arithmetik. In diesem Raum errechnet sich für die Multiplikationsaufgabe

ab=(i=02n+11aiDi)(j=02n+11bjDj)
=k=02n+22(i,j=0i+j=k2n+11aibj)Dk
=k=02n+11(i,j=0i+j=k2n+11aibj)Dk+k=02n+11(i,j=0i+j=2n+1+k2n+11aibj)D2n+1+k
=k=02n+11(i,j=0i+jkmod2n+12n+11aibj)Dk,

wobei wir im letzten Schritt die Eigenschaft D2n+1=D2n=E2=1 in diesem zyklischen Zahlenraum benutzt haben.

Zusammenfassend erhält die Multiplikation also die Form

ab=k=02n+11ckDk

mit den Ergebniskoeffizienten

ck=i,j=0i+jkmod2n+12n+11aibj.

Wir können ck<2n+1D nach oben abschätzen.

Nun folgt eine Umschreibung der Summenformel, damit wir uns bei der anzuwendenden FFT auf eine halbierte FFT beschränken können.

Es gilt ck+2nDk+2n=ck+2nDkE=ck+2nDk, also ist

ab=k=02n1(ckck+2n)Dk

mit 2n+1D<ckck+2n<2n+1D in E+1. Durch passende Addition können wir den Wertebereich ins Positive verschieben, es ist nämlich 0<ckck+2n+2n+1D<2n+2D, und mit der Definition

zk={ckck+2n+2n+1D,0k<2n2n+1D,2nk<2n+1

gilt

ab=k=02n+11zkDk.

Für die nichttrivialen zk (Indizes 0 bis 2n1) gilt die Abschätzung 0<zk<2n+2D<2n+2Fn. Da die beiden Zahlen 2n+2 und Fn teilerfremd ist, genügt zur Bestimmung der zk die Berechnung der Reste zkmod2n+2 und zkmodFn.

Hat man nämlich die Reste zk=ξmodFn und zk=ηmod2n+2 bestimmt, so kann man in Komplexität O(2n) wie folgt rechnen: Berechne erst δ=ηξmod2n+2 und dann zk=ξ+δ(D+1)=ξ+δFn.

Bestimmung der Reste modulo 2n+2

Hier wenden wir einen für die Computeralgebra sehr typischen Trick an: Wir setzen die Stückfolgen ai und bi durch Einfügen genügend langer Nullsequenzen mit Sicherheitsabständen so zusammen, dass nach Produktbildung die Einzelergebnisse ebenfalls noch ohne Überlappungen in Stücken aneinandergereiht sind. Es seien also αj=ajmod2n+2 und βj=bjmod2n+2 in 2n+2. Wir bilden nun

u=k=02n+11αk2k(3n+5) und v=k=02n+11βk2k(3n+5)

und haben dabei 0u,v<22n+1(3n+5). Das Produkt uv enthält dann in disjunkten Stücken der Bitlänge 3n+5 die Summen

γk=r,s=0r+s=k2n+11αrβs

mit 0k<2n+2, denn es ist 0γk<23n+5. Für die Terme ck unserer ursprünglichen Multiplikationsaufgabe ab sehen wir

ck=γk+γk+2n+1mod2n+2.

Für die zu bestimmenden Reste ηk=zkmod2n+2 erhalten wir

ηk=γkγk+2n+γk+22nγk+32n in 2n+2.

Der Komplexitätsaufwand für die Bildung aller αj,βj sowie der Extraktion der ηk ist O(22n); die Multiplikation uv kostet ψ(2n+1(3n+5)), insgesamt ist dies also O(22n).

Bestimmung der Reste modulo (D+1)

Hier kommt die DFT zum Einsatz. Wir unterziehen die Vektoren (a0,a2n+11) und (b0,b2n+11) mit 0ak,bk<D der DFT in R2n+1 mit R=D+1 und der Zahl 2 als 2n+1-ter Einheitswurzel. Da wir nur die Differenzen ckck+2n benötigen, genügt die halbierte DFT:

  • DFT zur Bestimmung der a^k und b^k nur für die ungeraden k mit 0k<2n+1
  • 2n Multiplikationen c^k=a^kb^k für alle ungeraden k
  • Inverse DFT zur Gewinnung aller Differenzen ckck+2n aus den c^k für ungerade k

Der Komplexitätsaufwand hierfür besteht aus O(n2n) Schritten des Einzelaufwands O(2n) für die DFT (gesamt also O(n22n)); hinzu kommen die Addition von 2n+1D sowie die Reduktionen modulo (D+1) für die Gewinnung der zkmod(D+1), was in O(22n) bewältigt werden kann.

Rekursionsschritt für gerades m

Auch für diesen Schritt der Rückführung von m=2n2 auf n wird die Komplexität O(2nψ(2n)+n22n) erreicht.

Es seien a,bFm mit m=2n2 und der Fermatzahl Fm=22m+1 zu multiplizieren. Wir werden auch in diesem Schritt die Rückführung auf die Fermatzahl Fn=22n+1 vollziehen.

Für die zu den beiden Fermatzahlen gehörenden Zweierpotenzen führen wir analog die Abkürzungen

D=Fn1=22n

und

E=Fm1=222n2=D2n2

ein. Wiederum wird die halbierte Stellenzahl von D unsere Stückelungsgröße werden, d. h. wir entwickeln a und b nach Potenzen von D:

a=i=02n1aiDi und b=i=02n1biDi,

wobei für die Einzelstücke 0ai,bi<D gilt.

Wie oben verlängern wir die Zahlendarstellung auf Zweierpotenzlänge zu

a=i=02n1aiDi

und analog für b.

Unter abermaliger Zuhilfenahme des Struktursatzes zur zyklischen Arithmetik wechseln wir nun vom Restklassenring E+1 über zum Quotientenraum (E2,,)/(E+1) mit der zyklischen Arithmetik.

Damit können wir wieder

ab=k=02n1ckDk

mit den Ergebniskoeffizienten

ck=r,s=0r+skmod2n2n1arbs

darstellen. Dabei können wir ck<2nD nach oben abschätzen.

Aus D2n1=E2=1 können wir wieder

0<ckck+2n1+2nD<2n+1D

folgern, und mit

zk={ckck+2n1+2nD,0k<2n12nD,2n1k<2n

gilt

ab=k=02n1zkDk

mit 0<zk<2n+1D. Für die nichttrivialen zk (Indizes 0 bis 2n11) gilt die Abschätzung 0<zk<2n+1D<2n+1Fn. Wegen der Teilerfremdheit der beiden Zahlen 2n+1 und Fn genügt es wieder zur Bestimmung der zk, die Reste zkmod2n+2 und zkmodFn zu berechnen.

Bestimmung der Reste modulo 2n+1

Wir wenden wieder den Trick der Einfügung von Sicherheitsabständen an: Es seien also αj=ajmod2n+1 und βj=bjmod2n+1 in 2n+1. Wir bilden

u=k=02n1αk2k(3n+2) und v=k=02n1βk2k(3n+2)

und haben dabei 0u,v<22n(3n+2). Das Produkt uv enthält dann in disjunkten Stücken der Bitlänge 3n+2 die Summen

γk=r,s=0r+s=k2n1αrβs

mit 0k<2n+1. Für die gesuchten ck unserer ursprünglichen Multiplikationsaufgabe ab sehen wir

ck=γk+γk+2nmod2n+1.

Für die zu bestimmenden Reste ηk=zkmod2n+1 erhalten wir

ηk=γkγk+2n1+γk+22n1γk+32n1 in 2n+1.
Bestimmung der Reste modulo (D+1)

Mit R=D+1 unterziehen wir wieder die Vektoren (a0,a2n1) und (b0,b2n1) mit 0ak,bk<D der DFT in R2n, wobei wir diesmal die Zahl 4 als 2n-te Einheitswurzel wählen. Da wir nur die Differenzen ckck+2n1 benötigen, genügt hier wiederum die halbierte DFT:

  • DFT zur Bestimmung der a^k und b^k nur für die ungeraden k mit 0k<2n
  • 2n1 Multiplikationen c^k=a^kb^k für alle ungeraden k
  • Inverse DFT zur Gewinnung aller Differenzen ckck+2n1 aus den c^k für ungerade k

Zusammenfassung

Startend mit a und b mit Ziffernlänge n wird durch die dargestellte Rekursion eine Komplexität von O(nlog(n)log(log(n))) erreicht.

Abgewandelte Form

Zimmermann und Brent beschreiben eine Variante des Algorithmus, bei der die Laufzeit (in Abhängigkeit von der Länge der Eingabe) keine Sprünge macht, sondern stetiger verläuft. Dies wird erreicht, indem die DFT-Vektoren nicht aus 2n-stelligen Binärzahlen, sondern Zahlen der passenden Länge gebildet werden. Dadurch muss die Länge der zu transformierenden Vektoren keine Zweierpotenz sein.[5][6]

Literatur

Einzelnachweise

  1. Arnold Schönhage, Volker Strassen: Schnelle Multiplikation großer Zahlen. In: Computing, 7, 1971, S. 281–292, Springer Verlag
  2. Martin Fürer: Faster integer multiplication. STOC 2007 Proceedings, S. 57–66.
  3. David Harvey, Joris van der Hoeven, Grégoire Lecerf: Even faster integer multiplication. 2014, Vorlage:ArXiv
  4. Vorlage:Literatur
  5. loria.fr (PDF; 1,9 MB) S. 56
  6. loria.fr (PDF)