Scagnostics

Aus testwiki
Version vom 6. März 2025, 09:04 Uhr von imported>Aka (Tippfehler entfernt, typografische Anführungszeichen)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Scagnostics (aus engl. Scatterplot diagnostics) bezeichnet eine Reihe von Maßzahlen, die bestimmte Eigenschaften einer Punktwolke in einem Streudiagramm kennzeichnen, die in der Praxis häufiger auftreten. Der Begriff wurde von John W. Tukey und Paul A. Tukey geprägt und später von Wilkison, Anand und Großmann ausgearbeitet.[1][2][3] Folgende neun Maßzahlen werden betrachtet:

  • Für die Ausreisser in den Daten:
    • Ausreisseranteil (outlying)
  • Für die Dichte der Datenpunkte:
    • Schiefe (skewed)
    • Klumpigkeit (clumpy)
    • Spärlichkeit (sparse)
    • Gestreiftheit (striated)
  • Für die Form der Punktwolke:
    • Konvexität (convex)
    • Dünnheit (skinny)
    • Faserigkeit (stringy)
  • Für einen Zusammenhang in den Daten:
    • Monotonie (monotonic)

Tukeys Idee

Eine Möglichkeit einen multivariaten Datensatz mit p Variablen zu visualisieren ist eine Streudiagramm-Matrix; siehe das Beispiel rechts für fünf Variablen. Der Nachteil dieser Darstellung ist es, dass das Diagramm nur wenig Variablen enthalten darf sonst wird es unübersichtlich bzw. man kann kaum noch Datenstrukturen erkennen. Die Idee der Brüder Tukey war es, das Problem von p(p1)/2 Streudiagrammen auf eine kleinere Zahl von k(k1)/2 Streudiagrammen für die Maßzahlen zu reduzieren. Denn die k Koeffizienten der p(p1)/2 Streudiagramme können dann wieder in einer Streudiagramm-Matrix dargestellt werden und mit Linking Methoden können die Streudiagramme der Daten herausgegriffen werden, die ungewöhnlich Werte der Koeffizienten zeigen.

Die Tukey-Brüder haben verschiedene Koeffizienten benutzt, z. B. Maße beruhend auf einer „geschälten“ konvexen Hülle der Daten (Fläche, Durchmesser), auf geschlossenen Höhenlinien der geschätzten Dichtefunktion (Fläche, Durchmesser, Modalität, Konvexität), nicht-lineare principal curves usw. Damit wollten sie Besonderheiten der Punktwolken in Bezug auf der Dichte der Daten, Form, Richtung usw. aufdecken.

Ihre Maßzahlen wiesen jedoch ein paar Probleme auf:

  • Einige der Maßzahlen hatten eine Berechnungskomplexität der Ordnung 𝒪(n3) (n Anzahl der Beobachtungen im Datensatz), der sie für Datensätze mit vielen Beobachtungen ungeeignet macht.
  • Implizit wurde angenommen, dass für jedes Paar von Variablen eine bivariate stetige Dichtefunktion existierte. In der Praxis sind jedoch viele Variablen diskret (oder klassiert).

Berechnung der Koeffizienten

Delaunay-Triangulation und minimaler Spannbaum eines Datensatzes.

Um diesen Problemen zu umgehen, haben Wilkinson, Anand und Grossman für die Berechnung der Maßzahlen graphentheoretische Ansätze gewählt:

  • Eine Delaunay-Triangulation der Daten und einen darauf aufbauend minimalen Spannbaum; siehe Grafik rechts. In einem minimalen Spannbaum werden alle Datenpunkte mit ihren Nachbarn so verbunden, dass ein Graph mit minimaler Länge entsteht, der alle Datenpunkte umfasst.
  • Die konvexe Hülle der Datenpunkte, die sich als die äußeren Kanten in der Grafik rechts ergibt.
  • Die α Form der Datenpunkte. Sie ergibt sich als die Grenzen der Dreiecke der Delaunay-Triangulation, deren Umkreis einen Radius α hat. Im Gegensatz zur konvexen Hülle kann die α Form auch zu Löchern führen. α ist hierbei das 90-%-Quantil der Kantenlängen des minimalen Spannbaums.

Da Ausreisser in den Daten die Maßzahlen stark beeinflussen können, wurden diese zum einen auf robusten Methoden basiert (wie auch schon bei den Tukeybrüdern) und zum anderen wurden sie bei der Triangulation ausgeschlossen. Des Weiteren wurden die Maßzahlen so gewählt, dass die Berechnungkomplexität 𝒪(nlog(n)) nicht überschritt. Um die Berechnung weiter zu beschleunigen, wurde noch Binning angewandt, d. h. nahe beieinanderliegende Datenpunkte wurden zusammengefasst.

Konvexe Hülle, α Hülle und minimaler Spannbaum eines Datensatzes.
Konvexe Hülle, α Hülle und minimaler Spannbaum eines Datensatzes.

Alle Maßzahlen liegen im Intervall von Null bis Eins. Um dies zu erreichen, werden in einem ersten Schritt alle Variablen des Datensatzes auf das Intervall [0;1] reskaliert:

Ui=Ximin(Xi)max(Xi)min(Xi).

Mit den reskalierten Daten werden dann die folgenden Maßzahlen berechnet.

Ausreisseranteil

Man berechnet zunächst das 25-%-Quantil q25 und das 75-%-Quantil q75 der Kantenlängen im minimalen Spannbaum (MST). Kanten deren Länge größer als q75+1,5(q75q25) werden als lange Kanten gekennzeichnet.

coutlying=Gesamtlänge der langen Kanten im MSTGesamtlänge aller Kanten im MST

Dies ist ein Maß für den Anteil der langen Kanten an allen Kanten im MST und

Vorlage:Panorama

Schiefe

Man berechnet das 10-%-Quantil q10, das 50-%-Quantil q50 und das 90-%-Quantil q90 der Kantenlängen im MST.

cskewed=q90q50q90q10

Dies ist ein robustes Maß für die Schiefe der Verteilung der Kantenlängen im MST. Dies gibt eine Information über die relative Dichte der Datenpunkte.

Vorlage:Panorama

Klumpigkeit

Eine schiefe Verteilung der Kantenlängen im MST heißt nicht unbedingt, dass die Daten in Teilgruppen zerfallen. Daher wird dafür ein Maß der Klumpigkeit definiert: Wird jeweils eine Kante ej aus dem MST entfernt, dann zerfällt der MST in zwei Teilgraphen. In dem kleineren der beiden Teilgraphen wird nun die längste Kante gesucht:

cclumpy=maxj(1maxk im kleineren TeilgraphKantenlänge(k)Kantenlänge(j))

Die Maßzahl liegt nahe Eins, wenn z. B. eine (lange) Kante zwischen zwei Clustern entfernt wird. Innerhalb eines Cluster sind die Distanzen klein, so dass das Verhältnis nahe bei Null liegt und daher cclumpy groß wird.

Vorlage:Panorama

Spärlichkeit

Die Spärlichkeit ist definiert als das 90-%-Quantil der Kantenlängen des MST:

csparse=min(1,q90)

Vorlage:Panorama

Gestreiftheit

Hierbei werden alle Kanten der Delaunay-Triangulation betrachtet. Haben zwei benachbarte Kanten einen Winkel von mehr als 138,5 Grad (genauer: cos(Winkel)<0,75) dann werden sie als „gestreift“ bezeichnet.

cstriated=Anzahl der gestreiften KantenpaareAnzahl aller Kanten in der Delaunay-Triangulation

Vorlage:Panorama

Konvexität

Um die Konvexität der Daten zu beurteilen, wird die Fläche der α Form mit der Fläche der konvexen Hülle verglichen:

cconvex=Fläche der α FormFläche der konvexen Hülle

Vorlage:Panorama

Dünnheit

Um zu prüfen, wie „dünn“ die Datenpunkte verteilt sind, wird die α Form genutzt

cskinny=14π Fläche der α FormUmfang der α Form

Dies ist ein normiertes Maß. Wenn die α Form ein Kreis ist, dann ergibt sich cskinny als Null.

Vorlage:Panorama

Faserigkeit

Die Faserigkeit prüft, ob der MST aus einem durchgehenden Pfad besteht, d. h. keine Abzweigungen besitzt. Dafür wird der Durchmesser des MST als die Länge des längsten durchgehenden Pfades bestimmt.

cstringy=Durchmesser des MSTGesamtlänge im MST

Besitzt der MST keine Verzweigungen, dann ergibt sich ein Wert für cstringy von Eins.

Vorlage:Panorama

Monotonie

Um einen Trend in den Daten zu sehen, wird Spearmans Rangkorrelationskoeffizient genutzt:

cmonotonic=rs2

Vorlage:Panorama

Beispiel

Die rechte Grafik zeigt bezirksweise den mittleren Hauspreis (medv) in Abhängigkeit vom Anteil der Unterschichtbevölkerung (lstat) der Boston Housing Daten. Folgende Scagnostics Maßzahlen wurden berechnet und die Ergebnisse mit den Beispieldatensätzen von oben verglichen.

coutlying =0,1459 Der Wert erreicht fast den maximale Wert der Beispieldatensätze. Dies weist auf einige Ausreißer in den Daten hin; tatsächlich gibt es große Abstände zwischen den Datenpunkten am rechten Rand.
cskewed =0,7755 Auch hier wird fast der maximale Wert der Beispieldatensätze erreicht. Man sieht deutlich in den Daten eine zentrale Region in der die Datenpunkte dichter sind und außerhalb weniger dicht.
cclumpy =0,0322 Dieser Wert ist relativ klein. Die Daten zerfallen auch nicht in einzelne Cluster.
csparse =0,0353 Der Wert liegt noch unterhalb des kleinsten Wertes der Beispieldatensätze. D. h. die Daten bedecken nur einen Teil der Gesamtfläche.
cstriated =0,0463 Der Wert liegt an der unteren Grenzen der Beispieldatensätze. Eine klare streifige Struktur ist daher nicht zu erkennen.
cconvex =0,3501 Der Wert liegt im Mittelfeld der Beispieldatensätze. Insbesondere bei nicht-linearen Zusammenhängen tritt dieser Wert in den Beispieldatensätzen auf.
cskinny =0,5833 Auch dieser Wert liegt im Mittelfeld der Beispieldatensätze. Dies weist auf eine Struktur hin, die einen Zusammenhang vermuten lässt zwischen diesen Variablen.
cstringy =0,3557 Dieser Wert liegt am unteren Rand der Beispieldatensätze. Eine glatte Struktur gibt es in den Daten nicht, d. h. der Datensatz enthält etwas Streuung.
cmonotonic =0,7484 Dieser Wert liegt am oberen Rand der Beispieldatensätze. Da es einen deutlichen Zusammenhang zwischen beiden Variablen ist das nicht überraschend.

Zusammenfassend kann also gesagt werden: Dieses Streudiagramm enthält einen deutlichen nicht-linearen Zusammenhang mit vermutlich stärkerer Streuung. Die Daten zerfallen in eine zentralere dichte Region und eine weniger dichtere äußere Region, die einige Ausreißer enthält.

Die Boston Housing Daten bestehen aus 14 Variablen, daher ergeben sich 91 Streudiagramme, die man betrachten kann. In der folgenden Streudiagramm-Matrix sind die neun Maßzahlen für die 91 Streudiagramme dargestellt. Z. B. bei Sparse fällt ein extremer Wert auf. Dies ist das Streudiagramm der Variablen Charles-River Index mit zwei Merkmalsausprägungen (Bezirk grenzt an den Charles River oder nicht) und Index des Zugangs zu den radialen Autobahnen mit acht Merkmalsausprägungen. D. h. alle Beobachtungen im Streudiagramm dieser beiden Variablen müssen sich auf 16 Punkte konzentrieren!

Einzelnachweise