Sie sind nicht angemeldet.

  • Anmelden

1

13.06.2011, 15:43

Statistikfragen

(Analysen in R)

1.) ich habe mir über eine schrittweise regression mein best fitting modell berechnen lassen, bei dem der AIC wert als auswahlkriterium herangezogen wurde. das modell mit dem geringsten (=besten) AIC wert sieht wie folgt aus:

dieses modell liefert mir also mit den ausgewählten parametern den besten erklärungsansatz (adj. R² 54%). ABER: der parameter GEOL ist _nicht_ signifikant...wie geh ich damit um? denn kommt der parameter GEOL raus, verschlechtert sich die modellgüte ?(

2.) ich habe ev. "ausreißer" (mit hilfe des cook's distanzmaß) aus meinem dataset rausgeschmissen...die erneute schrittweise regression hat mir zwar dann einen noch niedrigeren AIC wert geliefert (super), es sind diesmal alle modellparameter signifikant (super), aber mein bestimmtheißtsmaß hat sich auf ca. 46% reduziert (ok, damit muss ich wohl leben, nicht weiter schlimm). ABER: nachdem ich (siehe bild drunter links) meinen datapoint 25 rausgeschmissen habe (besonders hoher leverage effekt, angezeigt außerhalb der cook's distance), das modell neu gerechnet habe und erneut diese kontrolle aufgerufen habe, liegt jetzt ein weiterer punkt mehr oder weniger als ausreißer vor, der das modell besonders stark beeinflusst (bild unten rechts). wann ziehe ich da einen schlussstrich? mein modell weißt ein für mich ausreichen hohes R² auf, alle parameter sind signifikant und durch den ausschluss des einflussreichsten ausreißers hat sich auch mein AIC wert deutlich verringert. damit brauch ich an der stelle eigentlich nicht weitermachen, oder?


€: ok frage 2 mehr oder weniger selber beantwortet...datenpunkt 32 auch rausgeschmissen und das ergebnis ist super geworden. damit nur noch frage 1 offen :-)

thx!! (PS: kann sein, dass in den nächsten tagen noch ein paar basic R fragen kommen :O )

Zitat

Original von nC_$kittle_
Muss ich dann auch Hitler lieber mögen [...] nur weil er Deutscher ist?

Zitat

Original von CF_Icey
ich hab eine Hakenkreuzfahne über meinem Bett und einen Adolf-Hitler-Schlafanzug mit zugehöriger Bettwäsche

Dieser Beitrag wurde bereits 3 mal editiert, zuletzt von »CF_Ragnarok« (14.06.2011, 00:28) aus folgendem Grund: nicht duhm


2

13.06.2011, 16:46

tut mir leid, die Frage ist mir zu dumm!

3

13.06.2011, 17:16

cock´s distanzmaß ftw

4

13.06.2011, 18:45

Lösch das "dumm" im Threadtitel mal.

@1: Solange du einen Regressor hinzutust und dieser nicht linear Abhängigkeit von den bisherigen ist, erhöht sich dein R². Adjusted R² hat nur einen Malus für jeden zusätzlichen Parameter, der ist aber unabhängig vom Regressor. Daher ist es überhaupt kein Widerspruch durch einen zusätzlichen Regressor das adj. R² steigen zu lassen, obwohl dieser Regressor nicht signifikant ist.

Im übrigen solltest du eher von einem überspezifizierten Modell ausgehen und dann nicht signifikante Regressoren rausschmeißen, als andersherum zu einem unterspezifizierten Modell Regressoren hinzuzügen. Hast du unabhängige Regressoren im Modell, so ist dein OLS-Schätzer trotzdem noch erwartungstreu und du kannst die Residuenvarianz erwartungstreu schätzen. Die Parameter des geschätzten Koeffizientenvektors zu den nicht ins Modell gehörenden Regressoren sind im Mittel auch 0. Im Gegensatz dazu die Situation, wenn du ein lineares Modell mit OLS schätzt, aber Regressoren fehlen, welche du eigentlich im Modell haben müsstest. Dein Parameterschätzer wird dann nicht mehr Erwartungstreu sein und zusätzlich wirst du die Residuenvarianz überschätzen. Damit wird beim F-Test auf Signifikanz der kritische Wert kleiner, weil die Residuenvarianz da im Nenner steht. Folglich hast du dann ein zu großes Beharrungsvermögen auf der Nullhypothese und lehnst zu häufig selbst dann nicht ab, wenn du eigentlich (bei korrekt geschätzter Varianz) müsstest.

Entscheide dich für ein Modellgütekriterium, bspw. AIC. Generell gibt es Optimalität nur bzgl. eines vorher gewählten Kriteriums. Würden adj. R² und AIC immer die gleiche Modellreihenfolge liefern, so gäbe es jeweils monotone Transformationen, welche die eine Kennzahl in die andere überführen und man könnte sich eines der beiden Maße sparen. Da dem aber nicht so ist, haben sie beide ihre Berechtigungen. Im Zweifel ist das AIC "more sophisticated" - aber man muss trotzdem nachdenken.

Also erst alles ins Modell rein und dann insignifikante Regressoren rausschmeißen (die Operation des rausschmeißens und die danach resultierenden p-Values der verbleibenden Regressoren müssen sich auch nicht monoton verhalten!). Dabei auch auf die Korrelationsmatrix der Regressoren schauen. Wenn bspw. 2 oder 3 Regressoren fast linear abhöngig voneinader sind, so kann es helfen einen der 3 rauszuschmeißen (abiträr, oder mal zyklisch testen). Danach ist kein Regressor mehr (fast) eine Linearkombination der beiden anderen und die Varianz sollte sinken und das Modell stabiler werden (score-Funktion = relative Veränderung Likelihood-Funktion fällt in Richtung dieses Parameters steiler ab, d.h. Identifizierung ist einfacher, siehe Verbindung zur Fisher-Information).

@2: Wenn du eine Beobachtung rausschmeißt, dann verändert sich natürlich auch deine geschätzte Residuenvarianz und damit die Kennzahlen. Damit sollte intuitiv klar sein, wieso sich deine Cook-Distanz verschiebt und jetzt wohlmöglich ein neuer Wert draußen liegt.
Die Cook-Distanz gibt dir ja nur einflußreiche Beobachtungen an. Ich wäre generell vorsichtig Beobachtungen wegzuschmeißen - außer man ist sich sehr sicher, dass es sich im Meßfehler handelt und man modelliert das Zustandekommen solcher Meßfehler im Modell nicht. Generell finde ich es viel ehrlicher keine Beobachtungen rauszuschmeißen und mit einer schlechteren Modellgüte zu leben.

Der Extremfall wäre alle bis auf k Beobachtungen rauszuschmeißen, wenn man k Regressorcen hat. Dann ist das lineare Modell eindeutig lösbar und die Residuen sind 0. Die Aussage ist dann lediglich, dass durch 2 Punkte immer eine Gerade geht (im höherdimensionalen).

Hast du dir mal einen Plot deiner Residuen angeschaut und diese diagnostisch auf Annahmeverletzungen untersucht? Ein bloßer Plot der Residuen dürfte vielleicht einiges aufklären. Was sagt ein Wilk–Shapiro oder Jarque-Berra Test der Residuen?

Beiträge: 2 917

Wohnort: Seehausen am Staffelsee

Beruf: Statistiker

  • Nachricht senden

5

13.06.2011, 21:50

Worf kennt sich da echt gut aus. ;)
Das mit den Residuen würde ich auf jeden Fall machen. Du könntest dir zum Beispiel den Korrelationskoeffizienten zweier aufeinanderfolgender Residuen ausrechnen, vielleicht gibt es ja eine starke Korrelation zwischen denen.

Du könntest auch einen Biplot zeichnen mit prcomp("daten") und dann biplot(prcomp("daten")) da siehst du manchmal auch gut, welche Größen miteinander korrelieren und welche du dann gegebenenfalls weglassen kannst. Das ist eine Projektion in die zweidimensionale Ebene, bei der möglichst viele Informationen erhalten bleiben. (Die Pfeile, die in die selbe Richtung zeigen korrelieren evtl.)

Das adj. R^2 finde ich auch nicht so toll (etwas niedrig), aber ka.

Zu Aic kann ich nicht viel sagen.
Wenn du R-Fragen hast, kann ich dir einige davon beantworten denke ich. ;)

Ach ja und gegen Außreißer gibt es übrigens gute nicht-parametrische Schätzer, z.B. Lowess.
Kannst du auch in R ausprobieren mit lowess(...) Weiß aber nicht, ob das auch mehrdimensionalen geht...
Bin SHK im Forschungsbereich "Strukturbrüche", in ein paar Jahren kann ich vielleicht mehr dazu erzählen. ^^
live is live, nana nanana :D

Zitat

Original von -=)GWC(RaMsEs
von 50k könnte ich in münchen nicht mehr leben.

Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von »_Icedragon_« (13.06.2011, 22:09)


6

14.06.2011, 00:27

thx!!!

@worf:
ad 1) hab zwar im zweiten absatz nicht alles verstanden, aber der rest hat schon geholfen. was mich trotzdem wundert ist ja halt dass sich der AIC wert verschlechtert wenn ich aus meinem modell, das mir als "bestes" (= niedrigster AIC) eines mit einem nicht signifikanten parameter liefert, manuell diese nicht signifikante variable rausschmeiße. dann hätte ich zwar nur noch signifikante parameter, aber die modellgüte verschlechtert sich ?(
ad 2) ja, bin ich unmittelbar danach auch von selbst drauf gekommen :pinch: das problem bei umweltkenngrößen is oft, dass sie selten normalverteilt sind (wird fast alles vorher irgendwie transformiert) bzw. ohnehin schon mit z.b. robusten regressionen gerechnet, die ausreißer wenig bis gar nicht gewichten (großes rediduum). d.h. man muss da bei der interpretation immer sehr aufpassen bzw. die ausreißer (die ja sehr wichtig sind, v.a. in der etremwertstatistik zB bei veränderung der klimaextreme) separat behandeln.

@icedragon: du meinst kollinearitäten oder autokorrelationen? auch die sind bei umweltdaten oft nicht zu vermeiden...oft hat man halt räumlich korrelierte daten :wacko: aber da hilft eben so eine schrittweise regression mit dem AIC wert als informationskennwert. leider kommt selbst dann oft käse raus da sich zwar womöglich ein sehr gutes modell ergibt, die regressionsbeziehungen aber physikalisch sinnlos sind. adj. R² von 54% niedrig? die fernerkundler sind ab 30% schon happy, ich kann mit den 50% auch schon sehr gut leben...leider sux die natur im statistischen sinne oft :P
(auf das angebot mit der R hilfe komm ich die tage maybe gerne zurück...hoff das geht sich alles noch aus)

Zitat

Original von nC_$kittle_
Muss ich dann auch Hitler lieber mögen [...] nur weil er Deutscher ist?

Zitat

Original von CF_Icey
ich hab eine Hakenkreuzfahne über meinem Bett und einen Adolf-Hitler-Schlafanzug mit zugehöriger Bettwäsche

7

14.06.2011, 09:41

wenn du unter "backward elimination R" googlest findest du glaube ich auch ganz gute tips und begründungen. ich finde deinen R^2 wert eigentlich richtig gut. bei so ner kleinen stichprobe würde mich es übrigens überraschen, wenn im "besten" modell alle koeffizienten signifikant werden, der p-wert erscheint mir hier nicht unbedingt das beste auswahlkriterium zu sein?

8

15.06.2011, 01:36

Worf kennt sich da echt gut aus. ;)

thx, lehre ja dieses Zeugs auch. ;)
ad 1) hab zwar im zweiten absatz nicht alles verstanden, aber der rest hat schon geholfen. was mich trotzdem wundert ist ja halt dass sich der AIC wert verschlechtert wenn ich aus meinem modell, das mir als "bestes" (= niedrigster AIC) eines mit einem nicht signifikanten parameter liefert, manuell diese nicht signifikante variable rausschmeiße. dann hätte ich zwar nur noch signifikante parameter, aber die modellgüte verschlechtert sich ?(

Erstmal gilt ja nur AIC = 2*Anzahl_Parameter - 2*log-Likelihood , d.h. mehr Parameter verursachen einen Konstanten Malus und ansonsten geht man nach der größeren maximalen log-Likelihood. Dies bedeutet in der Informationstheorie, dass du auf dem Raum der Wahrscheinlichkeitsverteilungen ein bestimmtes Distanzmaß definierst um zu messen, welche Verteilungen nah beisammen und welche weiter entfernt sind. Das hier verwendete Distanzmaß ist die Kullback-Leibler Divergenz. Es wird quasi geschaut, wie sehr die geschätzen max-Likelihood Parameter bzw. die dadurch gegebenen Wahrscheinlichkeitsverteilungen von der wahren Verteilung abweichen - soweit der Grundgedanke.

Jedenfalls sieht man an der Formel, dass die AIC bei hinzunahme eines insignifikanten Parameters sowohl steigen als auch sinken kann - je nach Veränderung der log-Likelihood und ob dies durch den Dimensions-Malus kompensiert wird oder nicht. Sinkt die log-Likelihood beim rausschmeißen eines Regressors stark, so gehört dieser Parameter wohl ins Modell. Sinkt die log-Likelihood jedoch nur wenig, so war der Parameter wohl nicht sonderlich wichtig (Analogie zur beschränkten Optimierung und Interpretation der Lagrange-Multiplikatoren als "Schattenpreise" bzw. als Sensitivitäten der jeweiligen bindenden Nebenbedingung). Die AIC ist eigentlich nur ein Kriterium dafür, welche Veränderung an log-Likelihood ich beim rausschmeißen eines Parameters akzeptiere.
ad 2) ja, bin ich unmittelbar danach auch von selbst drauf gekommen :pinch: das problem bei umweltkenngrößen is oft, dass sie selten normalverteilt sind (wird fast alles vorher irgendwie transformiert) bzw. ohnehin schon mit z.b. robusten regressionen gerechnet, die ausreißer wenig bis gar nicht gewichten (großes rediduum). d.h. man muss da bei der interpretation immer sehr aufpassen bzw. die ausreißer (die ja sehr wichtig sind, v.a. in der etremwertstatistik zB bei veränderung der klimaextreme) separat behandeln.

Ja, Extremwertthroerie modelliert ja explizit das Randverhalten der Verteilung. Aber dies macht man explizit und eher nicht in Verbindung mit einer Regression.
Je nach Verteilung der Daten kann es Sinn machen andere Verfahren zu verwenden.
Ich glaube das wichtigste ist, dass du dir inhaltlich überlegst, ob die schwache Exogenität der Regressoren gegeben ist! Dies ist das wohl wichtigste bei einer OLS-Regression.

Man könnte jetzt natürlich extrem tief in die Theorie gehen und sagen, was du noch alles machen könntest... aber du sollst es ja auch umsetzen. Da ist zumindest eine Diagnose der Residuen nicht so schlecht (damit bist du schon besser als gefühlte 85% der Anwender), um überhaupt etwas darüber zu erfahren, ob das Modell halbwegs sinnvoll innerhalb der Annahmen operiert.

@icedragon: du meinst kollinearitäten oder autokorrelationen? auch die sind bei umweltdaten oft nicht zu vermeiden...oft hat man halt räumlich korrelierte daten :wacko: aber da hilft eben so eine schrittweise regression mit dem AIC wert als informationskennwert. leider kommt selbst dann oft käse raus da sich zwar womöglich ein sehr gutes modell ergibt, die regressionsbeziehungen aber physikalisch sinnlos sind. adj. R² von 54% niedrig? die fernerkundler sind ab 30% schon happy, ich kann mit den 50% auch schon sehr gut leben...leider sux die natur im statistischen sinne oft :P
(auf das angebot mit der R hilfe komm ich die tage maybe gerne zurück...hoff das geht sich alles noch aus)

Fast-Kollinearität meinte ich eigentlich in meiner Erklärung mit den Linearkombinationen und den insignifikanten Regressoren.
Wenn du räumlich korrelierte Daten hast, brauchst du halt einen Regressor für die räumliche Verteilung oder räumliche Struktur! Da hilft eigentlich genau nicht der AIC zur Modellwahl, weil du dann trotzdem Regressoren nicht im Regressionsmodell hast, welche eigentlich hinein gehören würden. Das AIC findet dir dann nur den Einäugigen und den Blinden - wenn überhaupt. Der gesamte Zusammenhang könnte durch diese räumlichen Korrelationen so verzerrt werden, dass dir das AIC ein ganz anderes Modell empfiehlt. Autokorrelationen (in den Residuen) musst du unbedingt berücksichtigen, d.h. darauf testen und ggfs. modellieren.

Absolute Werte kann man eigentlich beim adj. R² nicht interpretieren, sondern nur die Veränderungen bei einer konkreten Anwendung - siehe mein Lieblings-Paradox, das Bertrand-Paradoxon! Und grob ist ja das R² einfach nur das Quadrat der Korrelation, d.h. es gibt einen Winkel zwischen 2 Vektoren an: Bei OLS zwischen dem n-dim Vektor der abhängigen Beobachtungen y und dem geschätzten Vektor ŷ bzw. einem Vektor im von den unabhängingen Regressoren X aufgespannten Spaltenraum. Eine niedrige Korrelation bedeutet, dass der Winkel nahe 90° ist, d.h. die abhängige Variable y wird fast gar nciht von den unabhängigen Variablen X erklärt und der Fehler ê ist sehr groß (Modell y = Xb+e). Eine hohe Korrelation bedeutet einen kleinen Winkel, d.h. y und ŷ sind nah beieinander bzw. der Fehler ê ist sehr klein: Die Regessoren erklären y sehr gut. Anders ausgedrückt, bei n Beobachtungen und m Regressoren bilden y,ŷ,ê ein rechtwinkliges Dreieck. Dabei ist y im R^n, ŷ ist die orthogonale Projektion von y auf den linearen Unterraum, der von den Spalten der Regressormatrix X aus R^(n*m) aufgespannt wird und ê ist eine orthogonale Projektion auf das orthogonale Komplement dieses Unterraums, d.h. der Beobachtungsvektor wird in einen erklärten Teil ŷ und in einen dazu orthogonalen, unerklärten Rest ê aufgespaltet. Das R² misst einfach nur das Verhältnis von ŷ zu ê, d.h. von erklärtem Teil zu Fehler. Quadriert man die Längen dieser Vektoren, so erhält man (Pythagoras) den Zusammenhang: Total Sum of Squares = Estimated Sum of Squares + Residual Sum of Squares bzw. R² = 1 - RSS/TSS = ESS/TSS.

Dieser Beitrag wurde bereits 3 mal editiert, zuletzt von »AtroX_Worf« (15.06.2011, 11:16)