LL(k)-Grammatik

Dieser Artikel setzt Vorkenntnisse im Bereich Theoretische Informatik und Compilerbau voraus.

Eine LL(k)-Grammatik (im Gegensatz zu LF(k)-Grammatik auch schwache LL(k)-Grammatik) ist eine spezielle kontextfreie Grammatik, welche die Grundlage eines LL(k)-Parsers bildet.

Eine kontextfreie Grammatik heißt LL(k)-Grammatik für eine natürliche Zahl k, wenn jeder Ableitungsschritt eindeutig durch die nächsten k Symbole der Eingabe (Lookahead) bestimmt ist. Das bedeutet, die Frage, welches Nichtterminalsymbol mit welcher Regel als Nächstes expandiert werden soll, kann eindeutig mit Hilfe der nächsten k Symbole der Eingabe bestimmt werden.

Generell gilt, je größer k gewählt wird, umso mächtiger wird die Sprachklasse, wobei die Ausdrucksstärke von kontextfreien Grammatiken nie erreicht wird. Damit gibt es kontextfreie Sprachen, die für kein k von einer LL(k)-Grammatik erzeugt werden.

$ℒ (L L (1)) ⊊ ℒ (L L (2)) ⊊ \dots ⊊ ℒ (L L (k)) ⊊ ℒ (L R (1)) = ℒ (D P D A)$

Dabei steht DPDA für die deterministischen Kellerautomaten. Diese können genau die deterministisch kontextfreien Sprachen erkennen.

Formale Definition LL(k)-Grammatik

Eine kontextfreie Grammatik $G = (N, Σ, P, S)$ ist genau dann eine LL(k)-Grammatik, wenn für alle Linksableitungen der Form

S \Rightarrow_{l}^{*} w A γ \Rightarrow_{l} {\begin{matrix} w α γ \Rightarrow_{l}^{*} w x \\ w β γ \Rightarrow_{l}^{*} w y \end{matrix}

mit $(w, x, y \in Σ^{*}; α, β, γ \in (N \cup Σ)^{*}; A \in N)$ und ${𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (x) = {𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (y)^{}$ gilt: $α = β^{}$

Für die in der Definition benutzte Funktion zur Bestimmung der FIRST-Mengen gilt:

$a \in Σ^{*}; \| a \| \leq k$	${𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (a) = {a}$
$a \in Σ^{*}; \| a \| > k$	${𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (a) = {v \in Σ^{*} ∣ a = v w; \| v \| = k}$
$A \in (N \cup Σ)^{} ∖ Σ^{}$	${𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (A) = {v \in Σ^{} ∣ A \Rightarrow^{} w; w \in Σ^{*}; {𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (w) = {v}}$

Anwendung

Aktuelle LL-Parser benutzen meist nur einen Lookahead von 1. Daher kann in den folgenden Ausführungen $k = 1$ gesetzt werden.

Bei der praktischen Anwendung ist nur mit großem Aufwand überprüfbar, ob die vorliegende Grammatik die Definition einer LL(k)-Grammatik erfüllt. Es wird stattdessen ein abgewandelter Ansatz benutzt.

Eine kontextfreie Grammatik ist genau dann eine LL(k)-Grammatik, wenn für alle Nichtterminalsymbole $A$ , für alle Produktionen $A \to β$ und $A \to γ$ mit $β \neq γ$ und $S \Rightarrow_{l}^{*} w A α$ gilt: $f i r s t_{k} (β α) \cap f i r s t_{k} (γ α) = \emptyset$ . $(w \in Σ^{*}; α, β, γ \in (N \cup Σ)^{*}; A \in N)$

Erklärung: Das Startsymbol der kontextfreien Grammatik $S$ wurde (in eventuell mehreren Schritten) nach $w A^{} α$ expandiert. Gemäß der Linksableitung wird das Nichtterminalsymbol $A$ als Nächstes ersetzt. Dazu gibt es in der kontextfreien Grammatik aber zwei verschiedene Regeln; $A \to β$ und $A \to γ$ . Die Frage, mit welcher Regel $A$ expandiert wird, bestimmt sich aus der Berechnung von $f i r s t_{k} (β α)$ und $f i r s t_{k} (γ α)$ . Um die Frage eindeutig beantworten zu können, müssen beide Mengen disjunkt sein.

Im Allgemeinen hängt $f i r s t_{k} (β α)$ aber vom Rechtskontext $α$ ab (wenn $β \Rightarrow^{*} ϵ$ ). Das Ziel ist die Bestimmung von $f i r s t_{k} (β α)$ nur aus den Produktionen, d. h. aus $β$ und aus den Strings, die einem Vorkommen von $A$ folgen können. Für diesen Zweck wird die Funktion $f o l l o w_{k} (A)$ definiert, die die Menge aller $A$ folgenden Symbole berechnet.

$\forall β \in (N \cup Σ)^{*} : f o l l o w_{k} (β) = {w \in Σ^{*} ∣ \exists α, γ \in (N \cup Σ)^{*} mit S \Rightarrow_{l}^{*} α β γ und w \in f i r s t_{k} (γ)}$

Damit kann die eingangs geforderte Bedingung umformuliert werden:

Eine reduzierte kontextfreie Grammatik ist genau dann eine LL(1)-Grammatik, wenn für alle Nichtterminalsymbole $A$ und für alle Produktionen $A \to β$ und $A \to γ$ mit $β \neq γ$ gilt: $f i r s t_{1} ({β} f o l l o w_{1} (A)) \cap f i r s t_{1} ({γ} f o l l o w_{1} (A)) = \emptyset .$

Achtung: Dieser Satz kann auf Fälle $k > 1$ nicht angewandt werden.

Die zu einer Produktion $A \to β$ berechnete Menge $l a (A, β) = f i r s t_{1} ({β} f o l l o w_{1} (A))$ wird als Lookahead-Menge bezeichnet.

Beispiel

Für die folgende Grammatik $G$ wird geprüft, ob sie eine LL(1)-Grammatik ist. Dazu müssen die Lookahead-Mengen aller Produktionen mit gleichen linken Regelseiten disjunkt sein.

G = ({E, E^{'}, T, T^{'}, F}, {a, (,), +, *}, P, E)

und die Menge der Produktionen ist:

E \to T E^{'}

E^{'} \to + T E^{'} | ϵ

T \to F T^{'}

T^{'} \to * F T^{'} | ϵ

F \to (E) | a

Zunächst werden die first- bzw. follow-Mengen der Nichtterminalsymbole bestimmt, da diese für die Berechnung der Lookahead-Mengen nötig sind.

	E	E'	T	T'	F
$f i r s t_{1}$	${(, a}$	${+, ϵ}$	${(, a}$	${*, ϵ}$	${(, a}$
$f o l l o w_{1}$	${$,)}$	${$,)}$	${+, $,)}$	${+, $,)}$	${*, +, $,)}$

Es folgt der Vergleich der Lookahead-Mengen für alle Produktionen mit gleichen linken Regelseiten.

Als erstes für die beiden Produktionen $+ T E^{'}$ und $ϵ$ von $E^{'} \to + T E^{'} | ϵ$

f i r s t_{1} ({+ T E^{'}}) \cap f i r s t_{1} ({ϵ}) = {+} \cap {ϵ} = \emptyset

f i r s t_{1} ({+ T E^{'}}) \cap f o l l o w_{1} (E^{'}) = {+} \cap {$,)} = \emptyset

Als Nächstes für die beiden Produktionen $* F T^{'}$ und $ϵ$ von $T^{'} \to * F T^{'} | ϵ$

f i r s t_{1} ({* F T^{'}}) \cap f i r s t_{1} ({ϵ}) = {*} \cap {ϵ} = \emptyset

f i r s t_{1} ({* F T^{'}}) \cap f o l l o w_{1} (T^{'}) = {*} \cap {+, $,)} = \emptyset

Als letztes für die beiden Produktionen $(E)$ und $a$ von $F \to (E) | a$

f i r s t_{1} ({(E)}) \cap f i r s t_{1} ({a}) = {(} \cap {a} = \emptyset

Da alle betrachteten Schnittmengen leer sind, handelt es sich bei der Grammatik $G$ um eine LL(1)-Grammatik.

Siehe auch

Literatur

Donald E. Knuth: Top-down syntax analysis. In: Acta Informatica 1, 1971, Vorlage:ISSN, S. 79–110, (Neuabdruck einer erweiterten Fassung in: Donald E. Knuth: Selected Papers on Computer Languages. Center for the Study of Language and Information, Stanford CA 2003, ISBN 1-575-86381-2, (CSLI lecture notes 139), Kapitel 14).
LR(k)-Analyse für Pragmatiker von Andreas Kunert

$a \in Σ^{*}; \| a \| \leq k$	${𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (a) = {a}$
$a \in Σ^{*}; \| a \| > k$	${𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (a) = {v \in Σ^{*} ∣ a = v w; \| v \| = k}$
$A \in (N \cup Σ)^{} ∖ Σ^{}$	${𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (A) = {v \in Σ^{} ∣ A \Rightarrow^{} w; w \in Σ^{*}; {𝑓 𝑖 𝑟 𝑠 𝑡}_{k} (w) = {v}}$

LL(k)-Grammatik

Inhaltsverzeichnis

Formale Definition LL(k)-Grammatik

Anwendung

Beispiel

Siehe auch

Literatur

Navigationsmenü

LL(k)-Grammatik

Formale Definition LL(k)-Grammatik

Anwendung

Beispiel

Siehe auch

Literatur

Navigationsmenü

Suche