통계학과라면, 뭐 통계학과가 아니라도 과게에 서식하는 분들이라면 통계적 계산을 하셔야 할 때가 있을겁니다.
단순히 베르누이 분포(B)부터 시작해서 exponential, 정규분포, nbinomial 등등
이런 계산을 쉽고 간단하게 도와드리는 프로그램 R을 소개해보고자 합니다.
먼저 R에 대해서 간단히 설명드리자면
현재 우리나라에서 사용하는 통계 계산 프로그램에는 크게 SAS, SPSS, R, MATLAB이 있습니다.
이 중에서 유일하게 R만이 공짜로 이용할 수 있지요.
R을 다운받는 방법은 google.co.kr 들어가셔서 R 다운로드라고 치면 어딘가에 등장합니다.
오픈소스고 전부 공짜니까 어디서 받든 양심의 가책을 느끼시지 않으셔도 됩니다.
자 그럼 다 다운받고 설치까지 하셨다고 생각하고 진행하겠습니다.
1. R Studio의 설치.
R Studio는 R을 사용함에 있어 엄청난 편의를 가져옵니다. 기존의 R은
위와 같이 조금 딱딱하고 보기 힘든 모습이라고 한다면
R Studio는
보시는 바와 같이 조금더 세련되게 잘 보여주는 모습입니다.
뭐 사실 R을 처음 사용하시는 분들께는 이거나 저거나 로 보이실 수 있겠지만 굳이 표현하자면 도스와 윈도우의 차이라고 보실 수 있습니다.
도스에서 파일을 불러오기 위해서 디렉토리를 돌아다닐경우 전체적인 개관을 보기 힘들고 내가 하는 작업만이 중심이 된다면
윈도우에서는 내가 하는 작업 뿐만 아니라 전체적인 개관(윈도우 탐색기)을 보여줌으로서 주변에도 눈이 갈 수 있게 해주죠
R Studio가 그런 기능을 합니다. 내가 저장한 함수, 변수들을 손 쉽게 찾아볼 수 있게 해주는 역할을 하죠.
설치 방법은 역시 google.co.kr 들어가서 설치하시면 됩니다. 버전은 보통 R버전을 따라가기 때문에 전혀 문제가 없습니다!
2. R Studio를 통한 데이터 불러오기
통계에서 가장 중요한 것은 역시 데이터겠죠! 데이터가 있어야 분석을 하고 말고 할 것 아닙니까!
데이터를 불러올때는 read.table()이란 함수를 사용하게 됩니다.
물론 그 전에 setwd로 디렉토리를 설정해 주시면 편합니다.
다음 사진을 보시면 setwd를 통하여 내문서의 regression 폴더의 all_data 안의 all_data 폴더를 지정한 모습입니다.
이를 지정하면 옆 창에 파일 목록이 뜨게 되는데 그 파일 이름을 이용해서 데이터를 손 쉽게 불러올 수 있습니다.
** setwd를 보고 울렁거려서 명령어 입력을 못하시는 분들은 ctrl+shift+h 키를 누르면 디렉토리를 바로 설정하실 수 있습니다. 어디까지나 자유!
저는 일단 read.table을 통해 P060.txt.라는 파일을 불러오겠습니다.
example이라는 이름으로 불러온 데이터입니다.
오른쪽 위 Environment 창에서 example 데이터를 누르면
아래와 같이 데이터가 R에 입력이 되었습니다.
example<-read.table("P060.txt",header=TRUE) 라는 문구는
example이라는 이름으로 P060.txt를 저장할건데 head(1행)은 변수 명으로 저장하여 따로 빼겠다. 라는 뜻입니다.
3. 간단하게 함수를 이용하여 회귀분석하기
회귀분석에 대해서는 굳이 설명하지 않도록 하겠습니다. 일단 이번 글은 어디까지나 맛보기니까요.
앞으로 조금 더 자세하게 써 갈 예정이니 많이 봐주세요
위의 데이터를 바탕으로 회귀분석을 실시해 보겠습니다.
사용하는 함수는 lm입니다.
보시는 바와 같이 regression이라는 이름으로 Y를 X1,X2,X3,X4,X5,X6에 대응하여 회귀식을 완성하였습니다.
이를 수치상으로 보기 위해서는 summary()라는 명령어를 따로 써줘야 합니다.
결과는 아래 창에 표시가 되지만 너무 많아서 스크롤이 내려갔군요
Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6, data = example)
Residuals:
Min 1Q Median 3Q Max
-10.9418 -4.3555 0.3158 5.5425 11.5990
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.78708 11.58926 0.931 0.361634
X1 0.61319 0.16098 3.809 0.000903 ***
X2 -0.07305 0.13572 -0.538 0.595594
X3 0.32033 0.16852 1.901 0.069925 .
X4 0.08173 0.22148 0.369 0.715480
X5 0.03838 0.14700 0.261 0.796334
X6 -0.21706 0.17821 -1.218 0.235577
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.068 on 23 degrees of freedom
Multiple R-squared: 0.7326, Adjusted R-squared: 0.6628
F-statistic: 10.5 on 6 and 23 DF, p-value: 1.24e-05
이렇게 표시가 됩니다.
오늘은 처음시간이니까 R의 맛만 보여드렸습니다.
내일부터는 통계를 처음 하시는 분들도 알아보실 수 있게 간단한 계산부터 베르누이, 정규분포, nbinomial, exponential, poisson 과 같은 확률 분포, 그리고 직접 sin함수를 만들거나 여러가지 시도를 할 수 있는 방법을 보여드리겠습니다.
많이 기대해주세요.
과게에 R 관련 글이 하나도 없던 것 같아서 써봅니다...