F
fritzchen88
Statistanten,
ich habe Schwierigkeiten bei Statistik das große und ganze unter einen Hut zu bringen und zu verstehen. Also die Zusammenhänge, die Idee, die Fäden, die das Netz (Kontext) entstehen lassen.
Mir ist klar wie man Aufgaben durchrechnet und was die einzelnen Teile machen. Aber nicht der höhere Sinn. Daher versuche ich mich mal an einer Zusammenfassung und würde mich freuen, wenn ihr mich korrigiert/ergänzt:
Zu erst einmal versucht die Statistik Merkmale und deren Zusammenhänge darzustellen, die innerhalb einer Grundgesamtheit bestehen. Dazu bedient sie sich der Stichprobe, als Untermenge der GG. In diesen Stichproben werden nun Rechenoperationen durchgeführt (z.B. empirische Häufigkeiten), mit dem Ziel den wahren Merkmalen (theoretische Wahrscheinlichkeit) der GG möglichst nahe zu kommen und diese dadurch abzuschätzen, da Vollerhebungen z.B. aufgrund von Kosten/Aufwand oft nicht durchführbar sind.
Die "Rechenoperationen" haben das Ziel, signifikante Merkmale zu identifizieren. Hierzu bedient man sich ausschließlich?:
Um diese Schätzwerte zu erhalten, bedarf es Schätzfunktionen. Solche Schätzfunktionen werden z.B. durch die Maximum-Likelihood Methode/Momentenmethode/Prinzip der kleinsten Quadrate erstellt.
In welchem Kontext stehen nun aber die Verteilungen? Sie machen Aussagen über die Verteilung, also der Wahrscheinlichkeiten der Stichprobenfunktionen für gesuchte Merkmalsauprägungen. Sie basieren auf den wichtigsten beiden Parametern Erw und Var und zeigen nun die Verteilung aller Ausprägungen eines Merkmals einer Stichprobe. Dabei sehen diese grafisch aus wie einer Glocke, in der der Mittelwert, als häufigster Wert, meist denn höchsten y und mittigsten x Wert hat. Es existieren mehrere Verteilungen:
Die Freiheitsgrade N sagen jeweils etwas über die Größe der Stichprobe aus.
Dabei ist z der Wert beziehungsweise die Ausprägung, dessen Wahrscheinlichkeit f(z) man herausfinden will. Warum aber können diese Tabellen standardisiert werden und sind immer anwendbar, obwohl es doch immer unterschiedlich Stichproben mit unterschiedlichen Wahrscheinlichkeiten für die einzelnen Ausprägungen gibt?
Konfidenzintervalle schaffen die Möglichkeit einer gewissen Sicherheit für das Finden eines Wertes. Denn nun sage man nicht mehr, "das ist der gesuchte Punkt", sondern man sagt, der Punkt müsste unter der Wahrscheinlichkeit alpha, dass man sich irrt, in diesem besagten Intervall liegen. Damit lässt sich eine bestimmte Lage identifizieren und das Risiko, was beim intervalllosen Schätzen besteht, falsch zu liegen, wird hierdurch minimiert, kann jedoch nie in Gänze beseitigt werden. Anhand der Hypothesentests wird diese Intervallabschätzung in einem Verfahren durchgeführt. Warum muss man hier zwischen unterschiedlichen Verteilungen wählen? Und erfüllen KI bzw. Hypothesentests weitere Zwecke?
So weit mal grob was ich mir da zusammenschustern kann.
Wäre schön, wenn wir das ausbauen und weitere Sichtweisen, gerne auch auf tieferen Detailebenen, von weiteren Personen bekommen, um ein gesamtheitlicheres Verständnis als Fundament zu schaffen. Damit sollte man in der Klausur auch besser klar kommen.
So weit, alles Gute für euch
ich habe Schwierigkeiten bei Statistik das große und ganze unter einen Hut zu bringen und zu verstehen. Also die Zusammenhänge, die Idee, die Fäden, die das Netz (Kontext) entstehen lassen.
Mir ist klar wie man Aufgaben durchrechnet und was die einzelnen Teile machen. Aber nicht der höhere Sinn. Daher versuche ich mich mal an einer Zusammenfassung und würde mich freuen, wenn ihr mich korrigiert/ergänzt:
Zu erst einmal versucht die Statistik Merkmale und deren Zusammenhänge darzustellen, die innerhalb einer Grundgesamtheit bestehen. Dazu bedient sie sich der Stichprobe, als Untermenge der GG. In diesen Stichproben werden nun Rechenoperationen durchgeführt (z.B. empirische Häufigkeiten), mit dem Ziel den wahren Merkmalen (theoretische Wahrscheinlichkeit) der GG möglichst nahe zu kommen und diese dadurch abzuschätzen, da Vollerhebungen z.B. aufgrund von Kosten/Aufwand oft nicht durchführbar sind.
Die "Rechenoperationen" haben das Ziel, signifikante Merkmale zu identifizieren. Hierzu bedient man sich ausschließlich?:
- des Mittelwerts - als Schätzer für den wahren Wert mhü,
- der Stichprobenvarianz - als Schätzer für die tatsächliche Varianz sigma,
- der Korrelation/Chi Quadrat Unabhängigkeitstest - wie ist die Abhängigkeit zweier Ausprägungen untereinander,
- der Regression - wie gut lässt sich eine unabhängige Ausprägung (=Variable ?) durch eine abhängige erklären.
Um diese Schätzwerte zu erhalten, bedarf es Schätzfunktionen. Solche Schätzfunktionen werden z.B. durch die Maximum-Likelihood Methode/Momentenmethode/Prinzip der kleinsten Quadrate erstellt.
In welchem Kontext stehen nun aber die Verteilungen? Sie machen Aussagen über die Verteilung, also der Wahrscheinlichkeiten der Stichprobenfunktionen für gesuchte Merkmalsauprägungen. Sie basieren auf den wichtigsten beiden Parametern Erw und Var und zeigen nun die Verteilung aller Ausprägungen eines Merkmals einer Stichprobe. Dabei sehen diese grafisch aus wie einer Glocke, in der der Mittelwert, als häufigster Wert, meist denn höchsten y und mittigsten x Wert hat. Es existieren mehrere Verteilungen:
- Normalverteilung
- Standardnormalverteilung
- Bernoulliverteilung
- Chi-Quadrat-Verteilung
- T-Verteilung
- F-Verteilung
Die Freiheitsgrade N sagen jeweils etwas über die Größe der Stichprobe aus.
Dabei ist z der Wert beziehungsweise die Ausprägung, dessen Wahrscheinlichkeit f(z) man herausfinden will. Warum aber können diese Tabellen standardisiert werden und sind immer anwendbar, obwohl es doch immer unterschiedlich Stichproben mit unterschiedlichen Wahrscheinlichkeiten für die einzelnen Ausprägungen gibt?
Konfidenzintervalle schaffen die Möglichkeit einer gewissen Sicherheit für das Finden eines Wertes. Denn nun sage man nicht mehr, "das ist der gesuchte Punkt", sondern man sagt, der Punkt müsste unter der Wahrscheinlichkeit alpha, dass man sich irrt, in diesem besagten Intervall liegen. Damit lässt sich eine bestimmte Lage identifizieren und das Risiko, was beim intervalllosen Schätzen besteht, falsch zu liegen, wird hierdurch minimiert, kann jedoch nie in Gänze beseitigt werden. Anhand der Hypothesentests wird diese Intervallabschätzung in einem Verfahren durchgeführt. Warum muss man hier zwischen unterschiedlichen Verteilungen wählen? Und erfüllen KI bzw. Hypothesentests weitere Zwecke?
So weit mal grob was ich mir da zusammenschustern kann.
Wäre schön, wenn wir das ausbauen und weitere Sichtweisen, gerne auch auf tieferen Detailebenen, von weiteren Personen bekommen, um ein gesamtheitlicheres Verständnis als Fundament zu schaffen. Damit sollte man in der Klausur auch besser klar kommen.
So weit, alles Gute für euch