1탄이 갑자기 베스트로 올라가서 당황했네요;; 좋은 퀄리티의 글도 아닌데 좋게 봐주셔서 감사합니다.
오늘은 말씀드렸던대로 그래프를 가져오고자 합니다.
통계적 수치, 결과를 쉽게 보여주는 것이 그래프입니다. 설사 통계적 지식이 없더라도 그래프만 잘 그려서 보여주면 다 이해하죠.
그럼 시작하겠습니다.
1. Box plot(상자그림)
박스플롯이라고 주로 말하는 그래프입니다. 먼저 그림으로 보고 시작하죠
x1은 정규분포 N(100,15)로 생성된 1000개의 값입니다. 이를 박스플롯으로 나타내었습니다.
boxplot(x1,ylab="1000 normal numbers")라는 식은 x1을 boxplot으로 그릴건데 y축에다가 1000 normal numbers라고 써라. 라는 코드입니다.
x축에 쓰시고 싶으시면 xlab을 앞에 써주시면 됩니다. 반드시 xlab이 ylab보다 먼저 와야 합니다!
가운데 네모난 상자가 있는게 보이시나요. 저 네모난 상자의 맨 위는 Q3(3rd quartile, 75%, 상위 25%, 하위 75% 점)입니다.
반대로 맨 밑은 Q1(1st quartile, 25%, 상위 75%, 하위 25% 점)입니다. 그리고 가운데 굵은 줄은 median(50%)를 나타냅니다.
즉 저 상자는 상위 25% ~ 상위 75%까지를 묶은 상자이고 가운데에 중간값(median)을 표시함으로서 저 데이터가 어떤 식으로 퍼져있는지를 보여줍니다.
그리고 위 아래로 점선이 연결되다가 직선으로 끊기죠. 위의 점을 fence1, 밑의 점을 fence2라고 할때
fence1=Q3+1.5IQR(Q3-Q1) fence2=Q1-1.5IQR(Q3-Q1) 입니다. IQR은 InterQuartile Range라고 합니다.
이 점은 일종의 마지노선입니다. 이 선을 넘어가면 전부 Outlier가 된다는 거죠.
fence1과 fence2는 outlier를 정한다는 중요성 때문에 사람들마다 다르게 인식하기도 합니다. 하지만 R에 저장된 boxplot이라는 내장함수는 위의 식과 같이 fence1과 fence2를 인식하고 있기 때문에 바꾸기가 쉽지 않습니다. 혹시 바꾸고 싶은 분들을 위해 밑에 다른 코드를 첨부합니다.
#boxp라는 새로운 함수를 만듭니다.
boxp <- function(x,ylab){
five <- fivenum(x)
quart <- five[2:4]
fence.1 <- quart[1] - 3*(quart[2]-quart[1]) #1
fence.2 <- quart[3] + 3*(quart[3]-quart[2]) #2
fence.1.adj <- min(x[x > fence.1])
fence.2.adj <- max(x[x < fence.2])
y.range <- max(x)-min(x)
y.lim <- c(max(x)+0.1*y.range,min(x)-0.1*y.range)
outlier <- x[x < fence.1 | x > fence.2]
x.1 <- c(0,0)
par(xaxt="n")
plot(y.lim ~ x.1, type="n", xlim=c(-2,2), xlab="", ylab=ylab)
lines(c(-1,1),c(quart[3],quart[3]))
lines(c(-1,1),c(quart[2],quart[2]),lwd=3)
lines(c(-1,1),c(quart[1],quart[1]))
lines(c(-1,-1),c(quart[1],quart[3]))
lines(c(1,1),c(quart[1],quart[3]))
lines(c(0,0),c(quart[3],fence.2.adj))
lines(c(0,0),c(quart[1],fence.1.adj))
for (i in 1:length(outlier)) points(0,outlier[i],cex=1)
}
새로운 boxplot을 짜는 코드입니다. #1과 #2부분을 바꿔줌으로서 내가 원하는 boxplot을 만들 수 있습니다.
아래는 기존 플롯과 새로운 플롯의 비교 그림입니다.
이런 식으로 얼마든 바꿀 수 있습니다. 참 쉽죠?
2. 파이차트
원형차트를 말하는 건데요 누가 봐도 보기 쉽게 만들 수 있습니다.
기준이 되는 데이터는 제 하루 일과표로 해보겠습니다.
4시간 잠, 1시간 지하철, 학교에서 8시간, 1시간 지하철, 2시간 놀기, 4시간 공부, 2시간 오유 감상, 2시간 애니감상 으로 만들어보죠
\
위의 코드를 분석해봅시다. c(2,2,4,1,8,1,2,4)는 순서대로 넣을 숫자를(데이터를) 입력하였습니다.
col은 색깔입니다. 내가 원하는 색깔을 순서대로 저렇게 나오게 하겠다. 라는 뜻입니다.
label은 각 칸마다 이름을 붙이겠다는 뜻이구요
init.angle은 시작하는 각도입니다. 12시에서 시작했으니 90도로 잡았습니다.
clockwise는 시계방향이구요
main은 그래프의 이름입니다.
짠 쉽죠?
##파이 차트의 변형 - 반원차트입니다. 코드는 다음과 같습니다
half.pie <- function(x, title, color, names) {
I <- matrix(c(-1,0,0,1,1,0),3,2,byrow=T)
plot(I, xlab="", ylab="", axes=F, type="n", asp=1)
x.circle <- cos(seq(0,100,1)*pi/100)
y.circle <- sin(seq(0,100,1)*pi/100)
half.circle <- cbind(x.circle, y.circle)
k <- length(x)
cum.x <- cumsum(x)+1; cum.x.1 <- c(1,cum.x[1:(k-1)])
for (j in 1:k){
half.circle2<-rbind(half.circle[cum.x[j]:cum.x.1[j],],0.6*half.circle[cum.x.1[j]:cum.x[j],])
polygon(half.circle2,col=color[j],border=NA)
center <- round((cum.x[j]+cum.x.1[j])/2)
text(0.8*half.circle[center,1], 0.8*half.circle[center,2], names[j])
}
title(title)
}
이를 이용해 예제를 풀어보면
prop <- c(47,23,18,11,1)
names <- c("None","Buddhism","Protestant","Catholic","Others")
예제는 다음과 같은 데이터를 가져왔습니다. 사람들이 종교를 선호하는 선호도입니다.
## 또다른 변형입니다.
dots <- function(x, title, color, names){
theta <- seq(0, 2*pi, length=360)
circle <- cbind(cos(theta), sin(theta))
plot(circle, xlab="", ylab="", axes=F, type="n", asp=1)
k <- length(x)
cum.x <- cumsum(x); cum.x.1 <- c(0,cum.x[1:(k-1)])
for (j in 1:5){
points(cos(0.5*pi+((cum.x[j]-1):cum.x.1[j])/100*2*pi),sin(0.5*pi+((cum.x[j]-1):cum.x.1[j])/100*2*pi),col=color[j],pch=20)
center <- round((cum.x[j]+cum.x.1[j])/2)
text(0.8*cos(0.5*pi+center/100*2*pi), 0.8*sin(0.5*pi+center/100*2*pi),
names[j], col=color[j])
}
title(title, line=1)
}
이런 식으로 얼마든지 변형해서 사용하실 수 있습니다.
오늘은 여기까지구요 내일은 회귀식에 대해서 들고오겠습니다.
많은 분들이 과분한 관심을 주셨는데 제가 아는게 얼마 없어서 죄송합니다 ㅜㅜ
일단 계획한바로는 내일 회귀식, 내일 모레 비장의 무언가! 로 끝낼 예정입니다...
제가 더 공부하고 나서 다시 올릴게요 많이 기대하셨다면 죄송합니다 ㅜㅠㅠㅠ