Tensorregression

Als Tensorregression bezeichnet man in der Statistik ein Regressionsmodell basierend auf Tensoren. Bei einer solchen Regression können entweder der Regressor $X$ , der Regressand $Y$ oder beide Tensoren sein. Tensorregressionen werden vor allem für hochdimensionale oder große Daten verwendet, da Tensoren eine natürliche Darstellung solcher Daten sind. Ein Anwendungsbeispiel für die Tensorregression liegt im Neuroimaging, wo man zum Beispiel die Hirnaktivität einer Maus misst, welche durch ein Labyrinth rennt. Dabei werden Hunderte von Neuronen über einen längeren Zeitraum gemessen.

Bei hochdimensionalen Daten besitzt der Koeffiziententensor meistens einen viel höheren Rang als der Regressor und der Regressand, weshalb man – ähnlich wie bei der Regression mit reduziertem Rang – häufig die Annahme trifft, dass der Koeffiziententensor einen tiefen Rang basierend auf einer Tensorzerlegung besitzt. Bekannte solche Zerlegungen sind die Candecomp/Parafac-Zerlegung (CP), die Tucker-Zerlegung, die Tensor-Singulärwertzerlegung (t-SVD) und die Tensor-Train-Zerlegung (TT).

Im Artikel wird eine Tensor-Verallgemeinerung der verallgemeinerten linearen Modelle (GLM) behandelt, welche 2013 von Hua Zhou et al.^[1] mit der Candecomp/Parafec-Zerlegung eingeführt wurde und manchmal als CP-GLTR (Vorlage:EnS) abgekürzt wird.

Tensorregression

Im Artikel wird die Tensorregression auf den reellen Zahlen mit dem reellen Tensorprodukt $\otimes : = \otimes_{ℝ}$ definiert, das Konzept lässt sich aber auch auf allgemeinen Vektorräumen respektive Moduln definieren.

In der allgemeinen Form sind Tensordaten ${𝒳_{n}, 𝒴_{n}}_{1 \leq n \leq N}$ gegeben, dann ist das Tensorregressionsmodell von der Form

𝒴_{n} = f (𝒳_{n}, ℬ) + ℰ_{n},

wobei

𝒴_{n} \in ⨂_{i = 1}^{M} ℝ^{q_{i}}, 𝒳_{n} \in ⨂_{i = 1}^{L} ℝ^{p_{i}}, ℬ, ℰ_{n} \in ⨂_{i = 1}^{M} ℝ^{q_{i}}

Tensoren und $q_{1}, \dots, q_{M}, p_{1}, \dots, p_{L}$ natürliche Zahlen sind. Typischerweise besitzt der Koeffiziententensor $ℬ$ einen viel höheren Rang als die anderen Tensoren.

Durch Konkatenation $𝒴 \in ℝ^{N} \otimes ℝ^{q_{1}} \otimes \dots \otimes ℝ^{q_{M}}, 𝒳 \in ℝ^{N} \otimes ℝ^{p_{1}} \otimes \dots \otimes ℝ^{p_{L}}, ℰ \in ℝ^{N} \otimes ℝ^{q_{1}} \otimes \dots \otimes ℝ^{q_{M}}$ , lässt sich das auch kompakter als

𝒴 = f (𝒳, ℬ) + ℰ

hinschreiben.^[2]

Tensorapproximation

Für einen beliebigen Tensor $T$ sucht man einen Tensor $\hat{T}$ mit einer niedrigen Rang-Zerlegung, welche $T$ am besten approximiert, welches zu einem Optimierungsproblem der Form

ℒ (T) = \min \limits_{\hat{T}} ‖ T - \hat{T} ‖_{F}

führt, wobei wir hier die Frobenius-Norm gewählt haben. Zwei populäre Wahlen für eine solche Zerlegung sind die Candecomp/Parafec-Zerlegung (kurz CP-Zerlegung) und die Tucker-Zerlegung. Die CP-Zerlegung ist auch unter dem Namen canonical polyadic decomposition bekannt. Die Tucker-Zerlegung ist eine Form einer höher-dimensionalen Hauptkomponentenanalyse und wird auch HOSVD für Vorlage:EnS genannt.

Tensorzerlegungen

CP-Zerlegung

Sei $T \in ℝ^{q_{1}} \otimes ℝ^{q_{2}} \otimes \dots \otimes ℝ^{q_{D}}$ ein Tensor. Eine CP-Zerlegung für ein $R \in ℕ$ ist eine Rang- $R$ -Zerlegung von $T$ in Elementartensoren

T = \sum_{k = 1}^{R} λ_{k} 𝐯_{k}^{(1)} \otimes 𝐯_{k}^{(2)} \otimes \dots \otimes 𝐯_{k}^{(D)},

wobei die $𝐯_{k}^{(1)}, \dots, 𝐯_{k}^{(D)}$ Vektoren der Form $𝐯_{k}^{(i)} = (v_{k, 1}^{(i)}, v_{k, 2}^{(i)}, \dots, v_{k, q_{i}}^{(i)})^{T} \in ℝ^{q_{i}}$ sind und $λ = (λ_{1}, \dots, λ_{R})^{T} \in ℝ^{R}$ ein Gewichtsvektor zur Normierung ist. Die minimale Zahl

rank (T) = \min {R \in ℕ : T = \sum_{k = 1}^{R} 𝐯_{k}^{(1)} \otimes 𝐯_{k}^{(2)} \otimes \dots \otimes 𝐯_{k}^{(D)}}

nennt man den Rang von $T$ und er ist invariant unter Basiswechsel. Die Berechnung des Rangs ist jedoch NP-schwer.^[3]

Tucker-Zerlegung

Die Tucker-Zerlegung (oder auch HOSVD) zerlegt einen Tensor $T \in ℝ^{q_{1}} \otimes ℝ^{q_{2}} \otimes \dots \otimes ℝ^{q_{D}}$ in einen Kern-Tensor $G \in ℝ^{R_{1}} \otimes ℝ^{R_{2}} \otimes \dots \otimes ℝ^{R_{D}}$ und $D$ Faktor-Matrizen $A_{1} \in ℝ^{q_{1} \times R_{1}}, A_{2} \in ℝ^{q_{2} \times R_{2}}, \dots, A_{D} \in ℝ^{q_{D} \times R_{D}}$

T = G \times A_{1} \times \dots \times A_{D}

elementweise geschrieben

T = \sum_{j_{1} = 1}^{R_{1}} \sum_{j_{2} = 1}^{R_{2}} \dots \sum_{j_{D} = 1}^{R_{D}} g_{i_{1}, i_{2}, \dots, i_{D}} 𝐚_{j_{1}}^{(1)} \otimes 𝐚_{j_{2}}^{(2)} \otimes \dots \otimes 𝐚_{j_{D}}^{(D)}

wobei $𝐚_{j_{k}}^{(k)} \in ℝ^{q_{k}}$ für $k = 1, \dots, d$ und $j_{k} = 1, \dots, R_{k}$ Vektoren sind und $g_{i_{1}, i_{2}, \dots, i_{D}} \in ℝ$ . Die Parameter $(R_{1}, \dots, R_{D})$ nennt man Tucker-Ränge.

Regressionsmodelle

Verallgemeinerte lineare Tensorregression mit CP-Zerlegung

Die von Zhou et al.^[1] betrachtete Verallgemeinerung der verallgemeinerten linearen Modelle ist die Kopplungsfunktion

g (μ) = α + γ^{T} 𝐳 + ⟨ ℬ, 𝒳 ⟩,

wobei der Regressor $𝒳 \in ℝ^{N} \otimes ℝ^{p_{1}} \otimes ℝ^{p_{2}} \otimes \dots \otimes ℝ^{p_{L}}$ und $ℬ$ Tensoren sind, $𝐳$ ein Vektor-Regressor, der Regressand $y$ ein Skalar und $α \in ℝ$ der y-Achsenabschnitt ist. Das innere Produkt ist über die Vektorisierung $⟨ ℬ, 𝒳 ⟩ = ⟨ vec (ℬ), vec (𝒳) ⟩$ definiert. Sie nahmen nun an, dass für $ℬ$ eine CP-Zerlegung mit Rang $R$ existiert

g (μ) = α + γ^{T} 𝐳 + ⟨ \sum_{k = 1}^{R} 𝐛_{k}^{(1)} \otimes 𝐛_{k}^{(2)} \otimes \dots \otimes 𝐛_{k}^{(D)}, 𝒳 ⟩ .

Das Khatri-Rao-Produkt $⋆$ (auch spaltenweises Kronecker-Produkt) ist für zwei Matrizen $A \in ℝ^{I \times K}$ und $B \in ℝ^{J \times K}$ wie folgt definiert

A ⋆ B : = [\begin{matrix} 𝐚_{1} \otimes 𝐛_{1} & 𝐚_{2} \otimes 𝐛_{2} & \dots & 𝐚_{K} \otimes 𝐛_{K} \end{matrix}] \in ℝ^{(I J) \times K},

wobei $𝐚_{1}, \dots, 𝐚_{K}, 𝐛_{1}, \dots, 𝐛_{K}$ hier die Spalten der Matrizen sind und das Kronecker-Produkt genommen wird.

Mit Hilfe des Khatri-Rao-Produkt kann das Regressionsmodell nun umgeschrieben werden

g (μ) = α + γ^{T} 𝐳 + ⟨ (B_{D} ⋆ B_{D - 1} ⋆ \dots ⋆ B_{1}) 1_{R}, vec (𝒳) ⟩

wobei $B_{D} ⋆ B_{D - 1} ⋆ \dots ⋆ B_{1} \in ℝ^{\prod_{d} p_{d} \times R}$ aus $D$ Matrizen $B_{i} \in ℝ^{p_{i} \times R}$ besteht, $1_{R} = (1, \dots, 1)$ ein Vektor aus $R$ Einsen ist.^[1]

Literatur

Vorlage:Literatur

Einzelnachweise

[Zhou-1] 1,0 ^1,1 ^1,2 Vorlage:Literatur

[2] Vorlage:Literatur

[3] Vorlage:Literatur

[1]

[2]

[3]

Tensorregression

Inhaltsverzeichnis