Загрузить набор данных для своего варианта, ознакомиться с его содержимым.
train<-read.csv("E:/train.csv", header = TRUE, sep =",")
View(train)
Построить график корреляционного поля для каждого
фактора.
install.packages("ggplot2")
library("ggplot2")
qplot(data = train, train$Age, train$Fare)
ggplot()+geom_point(aes(x=train$Age, y=train$Fare), size = 2) + theme_bw(base_size = 18)+xlab("Age") + ylab("Fare") + labs(title = "Корреляционное поле")
Построить уравнение парной линейной регрессии для каж‐
дого фактора.
model <- lm(data = train, Fare~Age)
model$coefficients
Fare = 24.3009014 + 0.3499637 * Age
Проверить значимость каждого из полученных уравнений регрессии. Показать уравнения регрессии с заданным в варианте доверительным интервалом на графиках.
summary(model)
F-statistic: 6.632 on 1 and 712 DF, p-value: 0.01022
qplot(data = train, train$Age, train$Fare) + stat_smooth(method="lm", level = 0.95) + theme_bw(base_size = 18)
Построить прогнозы по каждому из уравнений парной регрессии для заданных в варианте значений факторов.
nd <- data.frame(Age=c(40,60))
predict(model,nd)
Построить уравнение множественной линейной регрессии
и получить корреляционную матрицу.
install.packages("GGally")
library("GGally")
install.packages("sjPlot")
library("sjPlot")
train2 <- data.frame(train$Fare,train$Survived,train$Pclass,train$Age)
model2 <- lm(data = train2, train.Fare~train.Survived+train.Pclass+train.Age)
model2$coefficients
summary(model2)
sjp.corr(train2)
Построить прогноз по уравнению множественной регреcсии для заданных в варианте значений факторов.
nd2 <- data.frame(train.Survived=1,train.Pclass=1,train.Age=21.00)
predict(model2,nd2)
https://github.com/micresh/data-analytics-2019-KubSTU/blob/master/lr2/lr2-rlab-ready.pdf