본문 바로가기
프로그래밍 언어 문법 및 개념/R

📊R - 상관계수

by mingiraffe03 2025. 11. 1.

목차

    특정 학과에서 전공필수 과목 중 파이썬, R 이렇게 두 과목이 있다고 합시다.

    학생들의 파이썬 성적을 X, R성적을 Y라고 하면, 두 개의 분포가 어떤 관련이 있는지 궁금할 것 입니다.

    이를 알려주는 두 개의 통계량이 공분산과 상관계수입니다.

    ex) 파이썬 잘 본사람은 R도 잘 봤나?

    Covariation(공분산)

    확률변수X, Y가 존재하고 (X= x₁, x₂, …, xₙ)

    여기서 확률변수X, Y에 대하여 공분산은 Cov(X, Y)이고

    Cov(X, Y) = E[(X-E(X))(Y-E(Y))] 로 정의합니다. (E(X): X들의 평균)

    전개하면 E[XY] - E[X]E[Y] 입니다.

    편차들의 제곱의 평균인 분산, Var(X) = E[(X-E(X))^2]과 비슷하게 생긴 것을 알 수 있는데

    실제로 Cov(X, X) = Var(X)입니다.

     

    공분산이 양수이면 X, Y가 비례하는 경향이란 것을 알 수 있습니다. (비율이 일정한게 아니라서 비례관계가 아닌, 비례 경향)

    반대로 공분산이 음수이면 반비례 관계 경향이 있다고 할 수 있습니다.

    X, Y가 독립적인 관계일 땐 공분산이 0(관련성 0)입니다.

     

    요약

    확률변수X, Y에 대하여 Cov(X, Y)을 공분산이라 합니다.

    • 두 변수 X, 같은 방향으로 움직이면 Cov(X,Y)>0
    • 반대 방향이면 Cov(X,Y)<0
    • 서로 무관하면 Cov(X,Y)≈0                                                                                                                                               그러나 Cov(X,Y)=0이라고 해서 X, Y가 독립이라고 할 수는 없습니다.

     

     

    Correlation(상관계수)

    여기서 두 분포의 상관계수는 다음과 같이 정의됩니다.

    여기서 아래와 같은 범위를 구할 수 있는데 증명은 생략하겠습니다.

    상관계수가 1에 가까울수록 강한 양의 상관관계에 있다고 말하고 -1에 가까울수록 강한 음의 상관관계에 있다고 말합니다.

     

    산점도로 보면 위 그림과 같습니다.

    중3 2학기 마지막 단원에 이 산점도와 상관계수를 다루던데 이런 걸 배웠었구나 싶었습니다. (2015개정 때 도입된 개념으로 추정)

     

    상관계수는 공분산과 다르게 확실하게 선형 비례관계입니다. (일정 비율 관계)

    공분산클수록 상관 관계가 높은게 아닙니다. 맞을 때도 많지만 단위 차이가 많이나는 경우엔 실제로 상관 관계와 상관없이 더 높게 나옵니다.

    하지만 상관계수는 공분산과 다르게 높을수록 상관 관계가 높은 것이기에 더 유용합니다.

     

    다음으로 상관 분석을 설명하기전에 귀무가설에 대해 알아보겠습니다.

     

    귀무가설 (Null Hypothesis, H₀)

    귀무가설 H₀ “변화나 차이가 없다”는 가정입니다.

    대립가설 H₁ 은 이와 반대되는 개념입니다. 예시는 아래와 같습니다.

    상황 귀무가설 H₀ 대립가설 H₁
    약의 효과를 검정 “이 약은 효과가 없다” “이 약은 효과가 있다”
    두 집단 평균 비교 “두 집단의 평균이 같다” “두 집단의 평균이 다르다”
    상관계수 검정 “상관관계가 없다 (ρ=0)” “상관관계가 있다 (ρ≠0)”

     

    추가적으로 따라오는 개념인 유의수준과 p-value를 설명하자면

    유의수준(Significance Level, α)

    귀무가설을 ‘틀렸다고 판단할 기준선’입니다.

    보통 α = 0.05 (5%) 를 가장 자주 씁니다.

    뜻은 이렇게 해석됩니다:

    “실제로는 차이가 없는데도,
    우리가 우연히 5% 확률로 ‘차이가 있다’고 잘못 결론 내릴 수 있다.”

    즉, 오판을 허용하는 최대 확률입니다.

    여기서 오판은 귀무가설이 사실인데도, 그것을 기각해버리는 잘못된 판단(대립가설)입니다.

    즉, 어떤 드문 일이 일어날 확률이 유의수준 이내이면 차이가 있다고 판단하는 것입니다.

    예시로 이해하는게 편한 것 같습니다.

    예시: 어떤 약의 효과가 있는지 실험을 진행했다.

    실험한 약으로 완치율은 10%였고, 가짜약의 완치율은 8%였다.

    2%차이가 실험한 약이 약효가 없어도 우연히 일어날 확률(즉, 둘 다 약효가 없는 약이라 우연한 개인 차이)이 유의수준 이하이면 2%차이도 일어나기 드문 일이라 약효가 있다고 대립가설을 채택하는 것이다.

     

    p-value(유의확률)

    p값: ‘H₀가 맞다면 이런 결과가 나올 확률’ (유의수준 파트 예시에서 2%차이가 일어날 확률에 해당함.)

     

    위 세 가지 개념(귀무가설, 유의수준, p값)으로 표현할 수 있는 것은

    p-value가 유의수준보다 낮으면 귀무가설은 기각하고 대립가설이 맞다고 보는 것입니다.

    예를 하나 더 들자면 동전은 공평하다고 가정하고 유의수준을 5%로 설정합시다. 동전 10번을 던졌을 때 모두 앞면이 나온다면 약 0.01% 수준의 사건이 발생한 것이므로 너무 드문일입니다. 따라서 운이 좋다기보다는 동전은 편향적이라고 봅니다.

     

     

    여기까지 상관관계관련 개념에 대해 나열해보았습니다.