Worf kennt sich da echt gut aus.
thx, lehre ja dieses Zeugs auch.
ad 1) hab zwar im zweiten absatz nicht alles verstanden, aber der rest hat schon geholfen. was mich trotzdem wundert ist ja halt dass sich der AIC wert verschlechtert wenn ich aus meinem modell, das mir als "bestes" (= niedrigster AIC) eines mit einem nicht signifikanten parameter liefert, manuell diese nicht signifikante variable rausschmeiße. dann hätte ich zwar nur noch signifikante parameter, aber die modellgüte verschlechtert sich
Erstmal gilt ja nur AIC = 2*Anzahl_Parameter - 2*log-Likelihood , d.h. mehr Parameter verursachen einen Konstanten Malus und ansonsten geht man nach der größeren maximalen log-Likelihood. Dies bedeutet in der Informationstheorie, dass du auf dem Raum der Wahrscheinlichkeitsverteilungen ein bestimmtes Distanzmaß definierst um zu messen, welche Verteilungen nah beisammen und welche weiter entfernt sind. Das hier verwendete Distanzmaß ist die
Kullback-Leibler Divergenz. Es wird quasi geschaut, wie sehr die geschätzen max-Likelihood Parameter bzw. die dadurch gegebenen Wahrscheinlichkeitsverteilungen von der wahren Verteilung abweichen - soweit der Grundgedanke.
Jedenfalls sieht man an der Formel, dass die AIC bei hinzunahme eines insignifikanten Parameters sowohl steigen als auch sinken kann - je nach Veränderung der log-Likelihood und ob dies durch den Dimensions-Malus kompensiert wird oder nicht. Sinkt die log-Likelihood beim rausschmeißen eines Regressors stark, so gehört dieser Parameter wohl ins Modell. Sinkt die log-Likelihood jedoch nur wenig, so war der Parameter wohl nicht sonderlich wichtig (Analogie zur beschränkten Optimierung und Interpretation der Lagrange-Multiplikatoren als "Schattenpreise" bzw. als Sensitivitäten der jeweiligen bindenden Nebenbedingung). Die AIC ist eigentlich nur ein Kriterium dafür, welche Veränderung an log-Likelihood ich beim rausschmeißen eines Parameters akzeptiere.
ad 2) ja, bin ich unmittelbar danach auch von selbst drauf gekommen :pinch: das problem bei umweltkenngrößen is oft, dass sie selten normalverteilt sind (wird fast alles vorher irgendwie transformiert) bzw. ohnehin schon mit z.b. robusten regressionen gerechnet, die ausreißer wenig bis gar nicht gewichten (großes rediduum). d.h. man muss da bei der interpretation immer sehr aufpassen bzw. die ausreißer (die ja sehr wichtig sind, v.a. in der etremwertstatistik zB bei veränderung der klimaextreme) separat behandeln.
Ja, Extremwertthroerie modelliert ja explizit das Randverhalten der Verteilung. Aber dies macht man explizit und eher nicht in Verbindung mit einer Regression.
Je nach Verteilung der Daten kann es Sinn machen andere Verfahren zu verwenden.
Ich glaube das wichtigste ist, dass du dir inhaltlich überlegst, ob die schwache Exogenität der Regressoren gegeben ist! Dies ist das wohl wichtigste bei einer OLS-Regression.
Man könnte jetzt natürlich extrem tief in die Theorie gehen und sagen, was du noch alles machen könntest... aber du sollst es ja auch umsetzen. Da ist zumindest eine Diagnose der Residuen nicht so schlecht (damit bist du schon besser als gefühlte 85% der Anwender), um überhaupt etwas darüber zu erfahren, ob das Modell halbwegs sinnvoll innerhalb der Annahmen operiert.
@icedragon: du meinst kollinearitäten oder autokorrelationen? auch die sind bei umweltdaten oft nicht zu vermeiden...oft hat man halt räumlich korrelierte daten :wacko: aber da hilft eben so eine schrittweise regression mit dem AIC wert als informationskennwert. leider kommt selbst dann oft käse raus da sich zwar womöglich ein sehr gutes modell ergibt, die regressionsbeziehungen aber physikalisch sinnlos sind. adj. R² von 54% niedrig? die fernerkundler sind ab 30% schon happy, ich kann mit den 50% auch schon sehr gut leben...leider sux die natur im statistischen sinne oft

(auf das angebot mit der R hilfe komm ich die tage maybe gerne zurück...hoff das geht sich alles noch aus)
Fast-Kollinearität meinte ich eigentlich in meiner Erklärung mit den Linearkombinationen und den insignifikanten Regressoren.
Wenn du räumlich korrelierte Daten hast, brauchst du halt einen Regressor für die räumliche Verteilung oder räumliche Struktur! Da hilft eigentlich genau nicht der AIC zur Modellwahl, weil du dann trotzdem Regressoren nicht im Regressionsmodell hast, welche eigentlich hinein gehören würden. Das AIC findet dir dann nur den Einäugigen und den Blinden - wenn überhaupt. Der gesamte Zusammenhang könnte durch diese räumlichen Korrelationen so verzerrt werden, dass dir das AIC ein ganz anderes Modell empfiehlt. Autokorrelationen (in den Residuen) musst du unbedingt berücksichtigen, d.h. darauf testen und ggfs. modellieren.
Absolute Werte kann man eigentlich beim adj. R² nicht interpretieren, sondern nur die Veränderungen bei einer konkreten Anwendung - siehe mein Lieblings-Paradox, das
Bertrand-Paradoxon! Und grob ist ja das R² einfach nur das Quadrat der Korrelation, d.h. es gibt einen Winkel zwischen 2 Vektoren an: Bei OLS zwischen dem n-dim Vektor der abhängigen Beobachtungen y und dem geschätzten Vektor ŷ bzw. einem Vektor im von den unabhängingen Regressoren X aufgespannten Spaltenraum. Eine niedrige Korrelation bedeutet, dass der Winkel nahe 90° ist, d.h. die abhängige Variable y wird fast gar nciht von den unabhängigen Variablen X erklärt und der Fehler ê ist sehr groß (Modell y = Xb+e). Eine hohe Korrelation bedeutet einen kleinen Winkel, d.h. y und ŷ sind nah beieinander bzw. der Fehler ê ist sehr klein: Die Regessoren erklären y sehr gut. Anders ausgedrückt, bei n Beobachtungen und m Regressoren bilden y,ŷ,ê ein rechtwinkliges Dreieck. Dabei ist y im R^n, ŷ ist die orthogonale Projektion von y auf den linearen Unterraum, der von den Spalten der Regressormatrix X aus R^(n*m) aufgespannt wird und ê ist eine orthogonale Projektion auf das orthogonale Komplement dieses Unterraums, d.h. der Beobachtungsvektor wird in einen erklärten Teil ŷ und in einen dazu orthogonalen, unerklärten Rest ê aufgespaltet. Das R² misst einfach nur das Verhältnis von ŷ zu ê, d.h. von erklärtem Teil zu Fehler. Quadriert man die Längen dieser Vektoren, so erhält man (Pythagoras) den Zusammenhang: Total Sum of Squares = Estimated Sum of Squares + Residual Sum of Squares bzw. R² = 1 - RSS/TSS = ESS/TSS.