Script 5

#Exercise 5.1
#1 define improve
improve <- (misdata$mis_arith1 - misdata$mis_arith0)
misdata$improve <- improve
#2. scatterplot
plot(improve ~ misdata$mis_IQ)
# relationship is linear, higher IQ score predicts larger improvement
#3.
??lm
#4.
model1 <- lm(improve ~ misdata$mis_IQ); model1
#5.ask summary
summary(model1)
# IQ is a significant predictor of improvement on arithmetic test score
#6.
??abline
abline(model1)
#7.
model2 <- lm(improve~misdata$mis_IQ, na.action=na.exclude)
??na.exclude
summary(model2)
#there is no difference in the two models, hence na.exclude is the default
#8.
fittie <- fitted(model1); fittie
fittie2<- fitted(model2); fittie2
resid <- resid(model1); resid
resid2<-resid(model2); resid2
#model 1 does not include NAs anymore, they were deleted. model 2 does include NAs
#so the function na.exclude just excludes the NAs from analysis but leaves them in
#9.
qqnorm(resid); qqline(resid)
# residuals seem light tailed
#10.
plot(fittie ~ resid)
plot(fittie2~resid2)
# variance seems homogenous (and plots are identical)

#Exercise 5.2
#1.
dat_reg <- data.frame(improve, misdata$mis_IQ, misdata$mydata.sexf, misdata$mis_educf); dat_reg
#2.
par(mex=0.5)
pairs(dat_reg, gap=0, cex.labels=0.9)
#improve and IQ are linearly related
#3. no effect for parental education or sex
model3<-lm(improve ~ dat_reg$misdata.mis_IQ + dat_reg$misdata.mydata.sexf)
summary(model3)
#sex is not a significant predictor of improvement, p>.05
model4<- lm(improve~dat_reg$misdata.mis_IQ+dat_reg$misdata.mydata.sexf+dat_reg$misdata.mis_educf)
summary(model4)
#sex and parental education are not significant predictors of improvement, p>.05
#4.
# I think it would be plausible to include interaction terms, because it is a factorial design
#5.
modelinter1<- lm(improve~dat_reg$misdata.mis_IQ + dat_reg$misdata.mydata.sexf + dat_reg$misdata.mis_IQ * dat_reg$misdata.mydata.sexf)
summary(modelinter1)
#no significant interaction effect between IQ and sex
modelinter2<- lm(improve~ dat_reg$misdata.mis_IQ * dat_reg$misdata.mydata.sexf)
summary(modelinter2)
#still no sign. interaction effect
#6.
anova(model1, modelinter1)
# I presume that this test compares the additional value of the model with interaction, over the model with only main effects
# as in hierarchical regression
# It finds no additional explained variance (p>.05)

# Exercise 5.3
plot(modelinter1)
summary(influence.measures(modelinter1))

#Exercise 5.4
#1.
arithbin <- misdata$mis_arith1
arithbin <- ifelse(misdata$mis_arith1<175, 0, 1); arithbin
misdata$mis_arith1
#2.
plot(arithbin~misdata$mis_IQ)
IQgroup<- cut(misdata$mis_IQ, seq(85,125,5))
tab<-table(IQgroup,arithbin);tab
relfreq<-prop.table(tab,1)[,2]
relfreq
points(relfreq~seq(87.5,122.5,5), pch=10,col="green")
#succes rate increases with IQ, and is 100% when IQ > 100.
#3.
Lmodel1<-glm(arithbin~misdata$mis_IQ,binomial)
summary(Lmodel1)
# IQ is a significant predictor of success on the arithmetic test after 1 year; p<.001
#4.
Lmodel2<-glm(arithbin~misdata$mis_IQ,binomial, na.action=na.exclude)
summary(Lmodel2)
# I get exactly the same table as before so na.exclude is probably the default
#5.
??predict
predict1<-predict(Lmodel1, type="response", na.action=na.exclude)
predict2<-predict(Lmodel1, type="response", na.action=na.include)
predict1
predict2
#I am not sure what the two different na options are? I hope I did it correctly
#6.
mis_IQ2<- na.omit(misdata$mis_IQ)
predict2
plot(predict2 ~ mis_IQ2)
misdata$mis_IQ
# the plot does not work for predict2 has 149 values and misdata$mis_IQ has 150

# Exercise 5.5
#1.
arithbin
Lmodel1

##############################################

#1.
#Exercise 5.2
#1.
dat_reg <- data.frame(improve, misdata$mis_IQ, misdata$mydata.sexf, misdata$mis_educf); dat_reg
#2.
par(mex=0.5)
pairs(dat_reg, gap=0, cex.labels=0.9)
#improve and IQ are linearly related
#3. no effect for parental education or sex
model3<-lm(improve ~ dat_reg$misdata.mis_IQ + dat_reg$misdata.mydata.sexf)
summary(model3)
#sex is not a significant predictor of improvement, p>.05
model4<- lm(improve~dat_reg$misdata.mis_IQ+dat_reg$misdata.mydata.sexf+dat_reg$misdata.mis_educf)
summary(model4)
#sex and parental education are not significant predictors of improvement, p>.05
#4.
# I think it would be plausible to include interaction terms, because it is a factorial design
#5.
modelinter1<- lm(improve~dat_reg$misdata.mis_IQ + dat_reg$misdata.mydata.sexf + dat_reg$misdata.mis_IQ * dat_reg$misdata.mydata.sexf)
summary(modelinter1)
#no significant interaction effect between IQ and sex
modelinter2<- lm(improve~ dat_reg$misdata.mis_IQ * dat_reg$misdata.mydata.sexf)
summary(modelinter2)
#still no sign. interaction effect
#6.
anova(model1, modelinter1)
# I presume that this test compares the additional value of the model with interaction, over the model with only main effects
# as in hierarchical regression
# It finds no additional explained variance (p>.05)

#2.
#Exercise 5.4
#1.
dat_reg <- data.frame(improve, misdata$mis_IQ, misdata$mydata.sexf, misdata$mis_educf); dat_reg
#2.
par(mex=0.5)
pairs(dat_reg, gap=0, cex.labels=0.9)
#improve and IQ are linearly related
#3. no effect for parental education or sex
model3<-lm(improve ~ dat_reg$misdata.mis_IQ + dat_reg$misdata.mydata.sexf)
summary(model3)
#sex is not a significant predictor of improvement, p>.05
model4<- lm(improve~dat_reg$misdata.mis_IQ+dat_reg$misdata.mydata.sexf+dat_reg$misdata.mis_educf)
summary(model4)
#sex and parental education are not significant predictors of improvement, p>.05
#4.
# I think it would be plausible to include interaction terms, because it is a factorial design
#5.
modelinter1<- lm(improve~dat_reg$misdata.mis_IQ + dat_reg$misdata.mydata.sexf + dat_reg$misdata.mis_IQ * dat_reg$misdata.mydata.sexf)
summary(modelinter1)
#no significant interaction effect between IQ and sex
modelinter2<- lm(improve~ dat_reg$misdata.mis_IQ * dat_reg$misdata.mydata.sexf)
summary(modelinter2)
#still no sign. interaction effect
#6.
anova(model1, modelinter1)
# I presume that this test compares the additional value of the model with interaction, over the model with only main effects
# as in hierarchical regression
# It finds no additional explained variance (p>.05)

# Exercise 5.3
plot(modelinter1)
summary(influence.measures(modelinter1))

#Exercise 5.4
#1.
arithbin <- misdata$mis_arith1
arithbin <- ifelse(misdata$mis_arith1<175, 0, 1); arithbin
misdata$mis_arith1
#2.
plot(arithbin~misdata$mis_IQ)
IQgroup<- cut(misdata$mis_IQ, seq(85,125,5))
tab<-table(IQgroup,arithbin);tab
relfreq<-prop.table(tab,1)[,2]
relfreq
points(relfreq~seq(87.5,122.5,5), pch=10,col="green")
#succes rate increases with IQ, and is 100% when IQ > 100.
#3.
Lmodel1<-glm(arithbin~misdata$mis_IQ,binomial)
summary(Lmodel1)
# IQ is a significant predictor of success on the arithmetic test after 1 year; p<.001
#4.
Lmodel2<-glm(arithbin~misdata$mis_IQ,binomial, na.action=na.exclude)
summary(Lmodel2)
# I get exactly the same table as before so na.exclude is probably the default
#5.
??predict
predict1<-predict(Lmodel1, type="response", na.action=na.exclude)
predict2<-predict(Lmodel1, type="response", na.action=na.include)
predict1
predict2

Zoeken in deze blog

R introduction

Script 5

Reacties

Een reactie posten

Populaire posts van deze blog

Script 3

Script 1