You are not logged in.

  • Login

1

Thursday, July 17th 2014, 3:55pm

statistik regression

also hatte grad multivariate vorlesung, da der prof kein mathematiker sondern psycho ist konnte er mir die frage auch nicht beantworten.
also das standardisierte regressionsgewicht beta entspricht bei ner bivariaten regression dem korrelationskoeffizienten. (dacht ich, falsch? hatten wir so gelernt)
wenn jetzt der prädiktor um eine standardabweichung steigt und das kriterium zuverlässig um 2 ist das betagewicht 2 aber die korrelation müsste ja sinken also kleiner als 1 (wie groß wär die eigentlich?)

Posts: 11,465

Location: Hamburg

Occupation: GER

  • Send private message

2

Thursday, July 17th 2014, 5:50pm

Ein Prof., der Regression an einer Uni lehrt, sollte solche Fragen eigentlich immer beantworten können - oder eben nachschauen und dich auf die nächste Vorlesung vertrösten.

Bei einer univarianten Regression regressierst du eine unabhängige Variable auf eine abhängige Variable (bivariat ist leicht irreführend, wenngleich man y und x hat). Per Standardannahme ist die unabhängige Variable X=(x_1, x_2) im Modell y = b_1*x_1 + b_2*x_2 + u (mit zumeist x_1 = 1) als nicht-stochastisch gegeben, y ist durch die stochastische Störvariable u dagegen stochastisch. Genau genommen macht man die Frage nach der theoretischen Kovarianz bzw. Korrelation zwischen y und X=(x_1, x_2) keinen Sinn, weil die Kovarianz bzw. Korrelation (was ja nur eine standardisierte Kovarianz ist) zwischen einer Zufallsvariablen und einer Konstanten immer 0 ist.

Man kann aber natürlich einen Korrelationskoeffizienten (bzw. k Stück bei k Regressoren x_1,...,x_k) ausrechnen. Dafür teilt man die empirische Kovarianz s_xy durch die das Produkt der empirischen Standardabweichungen s_x * s_y, d.h. r_xy = s_yx / (s_x * s_y). Die unstandarisierten Regressionskoeffizienten sind (quasi) b.est = s_xy/s^2_x, man normiert mit s_x/s_y, um auf b.est.std = b.est * s_x/s_y = s_xy/(s_x * s_y) zu erhalten.

btw., weil du von beta sprichst: Normal ist beta der theoretische Parameter, den du schätzen möchtest und beta.dach oder b ist ein Schätzer für den wahren, aber unbekannten Parameter beta. Der KQ-Schätzer b für beta ist bspw. gegeben mit b = (X'X)^(-1)X'y.

Was meinst du mit "wenn jetzt der prädiktor um eine standardabweichung steigt"? Ist bei dir der Prädiktor die unabhängive Regressionsvariable X? Wie gesagt, per Standardannahme der linearen Regression ist dies keine Zufallsvariable, hat demzufolge auch immer eine Standardabweichung von 0. Man kann natürlich die empirische Standardabweichung der Daten ausrechnen, einfach nur als Kenngröße und nicht in dem Sinne, dass es ein Schätzer für die wahre, aber unbekannte Standardabweichung von X wäre (was ja keine ZV ist).

Weiter kann ich deinem letzten Satz grammatikalisch nicht folgen.

Mit betagewicht 2 meinst du Schätzungsweise das 0,975-Quantil der t-Statistik des beta-KQ-Schätzers (bei ungefähr 60 Freiheitsgraden, d.h. ungefähr 60 Beobachtungen)??!

Btw., eine Korrelation r ist immer zwischen -1 <= r <= 1. Sinnvolle Schätzer für r sollten auch nur Werte in dem Intervall [-1, 1] annehmen können. Normalerweise ist dein Korrelationsschätzer für reale Daten immer kleiner als 1.

€dit:
Um noch etwas auszuführen: Man kann auch immer stochastische Regressoren X zulassen, wenn man alle Aussagen mit dem auf X bedingten Erwartungswert anstatt des auf die komplette σ-Algebra bedingten Erwartungswertes (normaler, unbedingter EW) formuliert - denn X ist bzgl. des auf X bedingten Erwartungswertes konstant. Man nennt das auch grob weak exogenity.

Eine Standardannahme des (multiplen) linearen Modells ist, dass die Regressoren X unkorreliert mit dem Störterm u sind. Für (zentrierte) u und X gilt also E[X'u | X] = 0 bzw. E[u | X] = 0.
Weiterhin ist eine Standardannahme, dass die Störterme u homoskedastisch und unkorreliert sind, d.h. das gilt E[uu'] = σ^2 I_n, mit I_n der (n x n)-Einheitsmatrix als Kovarianzmatrix des Störterms. Man sieht, alle Diagonalelemente = Varianzen sind gleich (homo), alle echten Kovarianzen, d.h. alle Nicht-Diagonalelemente sind 0, d.h. die Störgrößen zu verschiedenen Zeitpunkten sind unkorreliert.
Wenn stattdessen gilt E[uu'] = Σ, dann kommt man zu den Weighted Least Square (WLS) Modellen bzw. zum Feasible Least Square. Man muss eine Kovarianzstruktur annahmen, dann diese Kovarianz mit Hilfe von OLS schätzen. Anschließend bereinigt man die Variablen um die geschätzte Kovarianz und schätzt erneut. Dies wiederholt man iterativ, bis der beta-Schätzer ganze konvergiert.

Die Stochastizität kommt allerdings vom Störterm u und ggfs. dessen Kovarianzstruktur, sprich Autokorrelationen. Echte Stochastizität der unabhängigen Regressoren X, welche man nicht einfach wieder mit dem auf X bedingten Erwartungswert rausbekommt. Siehe Errors-in-variables models.

This post has been edited 1 times, last edit by "AtroX_Worf" (Jul 17th 2014, 6:20pm)


3

Thursday, July 17th 2014, 6:08pm

rein fiktives beispiel, der iq der mutter sage perfekt den iq des kindes vorher. iq hat mittelwert 100, sd 15
bei einer perfekten korrelation müsste ja mutteriq 105, kind auch iq 105. eine mutter mit iq115=kindiq von 115
hier wäre korrelation und das standardisierte regressionsgewicht (beta) ja identisch(=1)

nehmen wir jetzt mal an dass der zusammenhang so ist dass wenn der iq der mutter eine sd über dem schnitt ist, der des kindes 2 sd über dem schnitt ist. also mutteriq 115, kindiq 130. hat die mutter nen iq von 130 dann das kind von 160. (bzw halt in der logik ab dem intercept gestartet)
wie sähen dann korrelationskoeffizient und regressionkoeffizient aus?

ah ich überleg grad ob das geht oder ob sich dann die sd vom kind iq automatisch verdoppeln würde

also die ausgangsfrage war ob es standardisierte faktorladungen größer 1 geben kann. er meinte ja, man sähe das manchmal, hat das dann mit dem grad genannten beispiel versucht zu erklären, er ist dann aber am widerspruch dass regression und korrelation identisch sein müssen hängen geblieben.

This post has been edited 1 times, last edit by "Rommel" (Jul 17th 2014, 6:23pm)


Posts: 11,465

Location: Hamburg

Occupation: GER

  • Send private message

4

Thursday, July 17th 2014, 6:20pm

Du hast das Konzept von Standardabweichung nicht genau verstanden bzw. du musst sagen, was du für eine Standardabweichung meinst.

Bei beinem ersten Beispiel gilt:
(1) y = x
Bei deinem zweiten Beispiel gilt:
(2) y = -100 + 2*x

In beiden Varianten wäre kein Störterm vorhanden, d.h. bei einer linearen Regression würde man jeweils eine Korrelation von genau 1 rausbekommen. Der erste beta-Schätzer für die unabhängige Variable wäre 1, mal s_x/s_y = 1/1 = 1 bleibt 1.
In Variante 2 wäre der Schätzer für den Achsenabschnitt genau -100 und der Schätzer für den Einfluss der unabhängigen Variable x genau 2. Nun normalisierst du mit s_x/s_y = 1/2 (die Standardabweichung des Kindes ist jetzt doppelt so groß wie die der Mutter) und bekommst einen Korrelationskoeffizient von genau 2 * 1/2 = 1.

Solange da keine Stochastizität über eine Störvariable rein kommt, bekommst du auch immer genaue (perfekte) Schätzer und hast eine perfekte Korrelation von 1 oder -1. Die Korrelation wird erst kleiner, wenn irgendwo Stochastizität ins Modell kommt.

This post has been edited 2 times, last edit by "AtroX_Worf" (Jul 18th 2014, 9:56am)


Posts: 2,917

Location: Seehausen am Staffelsee

Occupation: Statistiker

  • Send private message

5

Thursday, July 17th 2014, 6:28pm

Deine Regression wäre dann:

x = -100 + 2*y + epsilon

Also beta = (-100,2) und epsilon dein störterm.

Die Kovarianz zwischen x und y würde sich (bei Endogenität von y, also unkorreliert mit Epsilon) wie folgt berechnen:
Cov(x,y) = Cov(-100+2*y + epsilon,y) = Cov(2*y,y) = 2*Var(y) = 2*15^2

Varianz von X:
Var(x) = Var(2*y+epsilon)
Var(y) = 15^2

Korrelation:
Corr(x,y) = Cov(x,y) / sqrt(Var(x) * Var(y)) = 2*15/sqrt(Var(2*y + epsilon) )

Das hängt jetzt von deinem Störterm epsilon ab.
live is live, nana nanana :D

Quoted

Original von -=)GWC(RaMsEs
von 50k könnte ich in münchen nicht mehr leben.

This post has been edited 1 times, last edit by "_Icedragon_" (Jul 17th 2014, 8:41pm)


Posts: 2,917

Location: Seehausen am Staffelsee

Occupation: Statistiker

  • Send private message

6

Thursday, July 17th 2014, 6:32pm

guck dir hier die formeln für a und b an, keines von beidem ist der Korrelationskoeffizient (der auch immer zwischen -1 und 1 liegen muss)

http://de.wikipedia.org/wiki/Lineare_Regression
live is live, nana nanana :D

Quoted

Original von -=)GWC(RaMsEs
von 50k könnte ich in münchen nicht mehr leben.

Posts: 11,465

Location: Hamburg

Occupation: GER

  • Send private message

7

Thursday, July 17th 2014, 6:41pm

@Icedragon: Erstmal würde ich x und y vertauschen, um bei der normalen Schreibweise zu bleiben. Aber ok, jetzt in deiner (vertauschten) Schreibweise.
Die (theoretische) Kovarianz zwischen der ZV x und der Konstanten y ist 0.

Wenn die unabhängige Variable y doch stochastisch sein soll, dann stimmt deine Zeile mit der Korrelation nicht, du hast die Wurzel im Nenner vergessen. Es lässt sich auch noch weiter vereinfachen.
Aber bei dem was Rommel geschrieben hat, da hat er gar kein epsilon bzw. ein epsilon = 0. Andernfalls hätte er keine perfekte Korrelation, wie er aber angenommen hat.

8

Thursday, July 17th 2014, 6:50pm

ah ok mein beispiel (bzw seins) geht gar nicht weil die varianz der abhängigen variable bei perfektem zusammenhang die direkte funktion der varianz der unabhängigen ist. also dass die doppelt so hoch ist funktioniert gar nicht

dann noch die ursprüngliche frage, gibt es fälle, in denen standardisierte faktorladungen höher als 1 sein können (wie vom prof behauptet aber nicht erklärbar)? so wie ich verstanden hab sind die standardisierten faktorladungen identisch mit der korrelation zwischen item und latentem faktor

This post has been edited 1 times, last edit by "Rommel" (Jul 17th 2014, 6:59pm)


Posts: 11,465

Location: Hamburg

Occupation: GER

  • Send private message

9

Thursday, July 17th 2014, 8:08pm

Lies dir nochmal durch was du geschrieben hast und überlege, ob du wirklich genau das aussagen willst.

Die erste Frage hattest du bis jetzt auch noch nicht gestellt.

10

Thursday, July 17th 2014, 8:22pm

ja ich will genau das aussagen bzw fragen. gibt es fälle in denen standardisierte faktorladungen oder regressionsgewichte größer als 1 sein können?

Posts: 2,917

Location: Seehausen am Staffelsee

Occupation: Statistiker

  • Send private message

11

Thursday, July 17th 2014, 8:44pm

@Icedragon: Erstmal würde ich x und y vertauschen, um bei der normalen Schreibweise zu bleiben. Aber ok, jetzt in deiner (vertauschten) Schreibweise.
Die (theoretische) Kovarianz zwischen der ZV x und der Konstanten y ist 0.

Wenn die unabhängige Variable y doch stochastisch sein soll, dann stimmt deine Zeile mit der Korrelation nicht, du hast die Wurzel im Nenner vergessen. Es lässt sich auch noch weiter vereinfachen.
Aber bei dem was Rommel geschrieben hat, da hat er gar kein epsilon bzw. ein epsilon = 0. Andernfalls hätte er keine perfekte Korrelation, wie er aber angenommen hat.

Die Wurzel hab ich vergessen. Bei seinem Kauderwelsch ist es aber auch schwierig die Essenz des Problems zu verstehen.^^
live is live, nana nanana :D

Quoted

Original von -=)GWC(RaMsEs
von 50k könnte ich in münchen nicht mehr leben.

Posts: 11,465

Location: Hamburg

Occupation: GER

  • Send private message

12

Friday, July 18th 2014, 1:34pm

gibt es fälle in denen standardisierte faktorladungen oder regressionsgewichte größer als 1 sein können?

Schau dir doch die Formel an:

Für die bivariate Regression, d.h. y = alpha*x + beta*z + u, die Formel für die standardisierten beta-Schätzer (ich habe sie ergoogelt) ist:

beta.hat.std.1 = (r_yx - r_yz*r_xz)/(1-(r_xz)^2). Setzte dafür bspw. r_yx = 0.1, r_yz = -0.6, r_xz = 0.7. Dann gilt
beta.hat.std.1 = (0.1 - (-0.6)*0.7)/(1-0.7^2) = 52/51 > 1

Die 3 Korrelationen sind möglich, eine (3x3)-Korrelationsmatrix mit diesen Korrelationen wäre immer noch positiv definit.

Wenn der erste Regressor bspw. nur die Konstante ist, dann sind die empirischen Korrelationen mit der Konstante jeweils 0, d.h. r_yx = 0 = r_xz. Für jede Korrelation -1 < r_yz < 1 ist beta.hat.std.1 = 0 und beta.hat.std.2 = r_yz.

Beantwortet das deine Frage?

13

Friday, July 18th 2014, 1:50pm



Schau dir doch die Formel an:

Für die bivariate Regression, d.h. y = alpha*x + beta*z + u

die formel verstehe ich nicht, warum wird der intercept jetzt noch mit einer zusätzlichen variable multipliziert?

Posts: 11,465

Location: Hamburg

Occupation: GER

  • Send private message

14

Friday, July 18th 2014, 2:13pm

Weil ich es allgemeiner gemacht habe. Wenn die Variable x eine Konstante (bspw. 1) ist, dann hat man das normale Modell. Allerdings ist es dann univariat, weil man die Konstante normalerweise nicht als eigenständigen sinnbehafteten/inhaltlichen Regressor zählt. Wenn x die Konstante ist, dann ist bspw. auch s_x = 0 und alle Korrelationen (und der standardmäßige Schätzer für die empirische Korrelation) mit diesem konstanten Regressor sind 0. Dann kann der standardisierte beta.Schätzer auch nicht (betragsmäßig) größer als 1 sein, siehe meine Ausführungen dazu im letzten Post.

Echt bivariat ist das Modell, wenn man 2 inhaltliche Regressoren auf den Regressanden regressiert.

€dit: Wenn man auf eine Konstante regressiert, dann spricht man auch von einem sogenannten inhomogenen Modell. Das Bestimmtheitsmaß R^2 macht nur im inhomogenen Modell, d.h. in Modellen mit Konstante, Sinn. Denn nur dann werden die Residuenquadratsummen um den jeweiligen Mittelwert bereinigt gebildet, d.h. man hat dann eine skallierte emp. Varianz. In homogenen Modellen würde dies nur gelten, wenn alle Regressoren einen Mittelwert von 0 haben. Dies ist gleichbedeutend damit, dass der beta-Schätzer für den Einfluß der Konstante 0 wäre, d.h. das man doch wieder im inhomogenen Modell wäre.
Schau dir mal insgesamt das Bestimmtheitsmaß an und wie es sich bei einer Regression verhält. Die Wurzel des Bestimmtheitsmaßes ist auch die Korrelation von y mit dem einzigen inhaltlichen Regressor, in meiner obigen Schreibweise r_yz, da bei mir dann x = 1 wäre.

This post has been edited 2 times, last edit by "AtroX_Worf" (Jul 18th 2014, 2:31pm)


15

Friday, July 18th 2014, 2:52pm

ah ok. brauch man für dein modell dann 2 unabhängige variablen? ist dann nicht schon eine multiple regression (ohne intercept)?

Posts: 11,465

Location: Hamburg

Occupation: GER

  • Send private message

16

Monday, July 21st 2014, 10:11am

Ja, man braucht dann 2 Variablen. Beim Wort "unabhängig" muss man aufpassen. Es sind unabhängige Variablen, als Synonym für "erklärende" Variablen und im Gegensatz zur abhängigen bzw zu erklärenden Variablen. Allerdings sind sie nicht stochastisch unabhängig, bzw. müssen dies nicht sein.

Man kann von multipler Regression sprechen. Aber da sich mathematisch/statistisch in der Systematik nichts ändert, ob man nur 1, 2 oder k Regressoren hat ist es eigentlich auch egal. Ich finde diese Pseudo-Unterscheidung in univariat und multivariat komisch. Wenn man es mathematisch und nicht statistisch sieht, dann hat eine Regression auf Konstante und zusätzliche Variable auch 2 Reressoren. Die Designmatrix sieht dann so aus: X = (1,x)

17

Monday, July 21st 2014, 11:01am

aja sehr gut frage beantwortet<11!!