Berechnung der Deskriptiven Statistik

	Achtung! Die Seite wird gerade bearbeitet.
	Dieser Artikel oder Abschnitt wird gerade bearbeitet. Um Bearbeitungskonflikte zu vermeiden, warte bitte mit Änderungen, bis diese Markierung entfernt ist, oder wende dich an den Bearbeiter auf seiner Diskussionsseite.

Die Berechnung der deskriptiven Statistik verwendet oft verhältnismäßig komplizierte mathematische Formeln. Als Hilfe zum Verständnis können zum Beispiel Tabellen mit dem Computer entwickelt werden.

Inhaltsverzeichnis

[Verbergen]

1 Daten
2 Normierung
3 Varianzanalyse
4 Regressionsanalyse
5 Mehrfaktorielle Varianzanalyse
6 Beispiel
7 Literatur
8 Andere Lexika
9 Einzelnachweise

Übrigens: Die PlusPedia ist NICHT die Wikipedia.
Wir sind ein gemeinnütziger Verein, PlusPedia ist werbefrei. Wir freuen uns daher über eine kleine Spende!

1 Daten

Die Daten werden für die statistische Berechnung tabellarisch aufgelistet und können zum Beispiel mit einer Software wie SimplexNumerica, SPSS oder auch den Kalkulationsprogrammen Calc oder Excel verarbeitet werden. Die anschließenden Leerzeilen in den Kalkulationsprogrammen bieten Platz für Forschungsfragen und Notizen.

Die Tabellenzeilen enthalten die einzelnen Datensätze. Die Spalten enthalten die Variablen. Für jede Spalte können Maxmimum, Minimum, Median, Mittelwert und weitere Kenngrößen berechnet werden. Für jede Variable werden die Daten eingetragen. Die erste Variable kann mit x, die zweite mit y und die dritte mit z bezeichnet werden.

2 Normierung

Die Normierung berechnet Kennzahlen, wodurch unterschiedlichste Mengen- bzw. Maßeinheiten vergleichbar werden. Der Mittelwert wird zum Ursprung und die Varianz wird zur Maßeinheit. Dieser Vorgang wird auch als Standardisierung bezeichnet. Bei der Normierung werden alle Zeilen einer Tabelle einbezogen, also auch alle Variablenwerte.

Vorgang der Normierung:

Anzahl = Anzahl der Variablenwerte in einer Spalte
Mittelwert (MW) = Summe der Variablenwerte jeder Spalte, geteilt durch deren Anzahl (arithmetisches Mittel)
Abweichung (Abw) = Differenzen zwischen Variablenwert und Mittelwert
quadrierte Abweichung (Abw²) = Quadrate der Abweichungen
Varianz (V) = Summe der quadrierten Abweichungen geteilt durch Anzahl-1 der Variablen^[1]
Standardabweichung (StA) = Wurzel aus der Varianz

Die Standardisierung ist eine wesentliche Voraussetzung für die Durchführung einiger statistischer Tests.

3 Varianzanalyse

Mit der Varianzanalyse wird geprüft, ob es zwischen zwei oder mehr Merkmalen einen Zusammenhang gibt oder anders ausgedrückt, ob und welche Merkmale miteinander korrelieren. Ein häufiger Fehler ist dabei, dass aufgrund der gestellten Forschungsaufgabe oder des Themas nur bestimmte Merkmale untersucht werden. Pro Datensatz müssen wenigstens zwei Variablenwerte vorliegen. Mit verschiedenen Variablen kann auch gemeint sein, dass ein Wert unter zwei verschiedenen Bedingungen gemessen wurde, oder die eine Variable bezieht sich auf den Ausgangswert, während die zweite Variable die Veränderung wiedergibt.

Die Daten werden wie folgt berechnet:

Kovarianz: Spalte 1

Tabellenzeilen: xAbw * yAbw = Produkt der Abweichung pro Individuum
Totalvarianz (tV) = Wurzel(xV * yV) = Wurzel aus dem Produkt der Varianz von Variable x und der Varianz von Variable y
Kovarianz (Cov) = Mittelwert der Tabellenzeilen (xAbw * yAbw) = Mittelwert aus dem Produkt der Abweichungen = überlappende Fläche beider Merkmale
Korrelationskoeffizient = Cov / tV = Kovarianz geteilt durch Totalvarianz

Korrelation: Spalte 2

Tabellenzeilen: x_zWert * y_zWert = Produkt der standardisierten Abweichung
Totalvarianz = 1 (= Totalvarianz geteilt durch Totalvarianz)
Korrelationskoeffizient = Mittelwert der Tabellenzeilen (x_zWert * y_zWert)
Kovarianz (Cov) = Totalvarianz mal Korrelationskoeffizient

4 Regressionsanalyse

Bei der Regressionsanalyse werden Beziehungen zwischen einer abhängigen (auch erklärte Variable, Kriterium[svariable], vorhergesagte Variable, Antwortvariable oder Regressand genannt) und einer oder mehreren unabhängigen Variablen (Prädiktoren) untersucht werden. Die Variable x sei der Prädiktor und die Variable y das Kriterium. Ist der Wert der Variablen x gegeben, kann der wahrscheinliche Wert der Variablen y ermittel werden, wenn tatsächlich eine Abhängigkeit besteht.

Die einfachste und bekannteste Form ist die lineare Regression:

b = Regressionskoeffizient = Cov / xV = Kovarianz geteilt durch xVarianz
a = Ordinatenabschnitt
yMW - xMW * b = Mittelwert der yVariablen minus Mittelwert der xVariablen mal Regressionskoeffizient
y = b * x + a

5 Mehrfaktorielle Varianzanalyse

Eine Varianzanalyse kann auch mit mehreren Faktoren gerechnet werden. Jedem Variablenwert werden soviele kategoriale Merkmale zugeordnet, wie Faktoren erfasst wurden. Die Normierung wird sowohl mit jedem einzenen kategorialen Merkmal durchgeführt, als auch mit jeder Kombination der kategorialen Merkmale. Der Varianzanteil der einzelnen kategorialen Merkmale werden vom Varianzanteil der kombinierten Merkmale subtrahiert. Der restliche Varianzanteil quantifiziert die Interaktion der kategorialen Merkmale.

Kopfzeile Varianz:

Spalte zwischen = Varianz zwischen = Mittelwert Abweichung²

Spalte innerhalb = Varianz innerhalb = Mittelwert der Varianzen pro Kategorie

Spalte total = Varianz total = Mittelwert aus Abweichung² + Varianzen der Kategorien, die Summe der Kopfzeile "Varianz zwischen" und "Varianz innerhalb" ergibt den gleichen Wert.

Kopfzeile StAbw: Wurzel aus der Varianz, gilt für die Spalten innerhalb, zwischen und total

Kopfzeile r²:

Spalte zwischen: Varianz zwischen geteilt durch Varianz total

Spalte innerhalb: Varianz zwischen geteilt durch Varianz total

Spalte total: Varianz total geteilt durch Varianz total (ergibt natürlich 1, Totalvarianz wird mit 1 gleichgesetzt).

Kopfzeile r = Wurzel aus r², gilt für Spalten zwischen, innherhalb und total

6 Beispiel

Aus der Liste österreichischer Komponisten klassischer Musik, der Liste österreichischer Autoren und der Liste der österreichischen Nobelpreisträger wurden Name, Geburtsdatum und Todesdatum übernommen. Das Lebensalter ist die Differenz aus Geburtsjahr und Todesjahr. Die drei Kategorien sind Komponist, Autor und Nobelpreisträger. Wenn jetzt etwa das Lebensalter untersucht wird, muss berücksichtigt werden, dass die durchschnittliche Lebenserwartung von Menschen im Laufe der Jahrhunderte gestiegen ist. Eine sehr einfache Fragestellung könnte lauten, ob die jeweilige Tätigkeit als Komponist, Autor oder Nobelpreisträger Einfluss auf das Lebensalter gehabt hat.

7 Literatur

Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6., vollständig überarbeitete und aktualisierte Auflage, Springer, Heidelberg 2005, ISBN 354021271X
Peter Zöfel: Statistik verstehen. Addison-Wesley Verlag, München 2002. ISBN 3827316901