목차
안녕하세요. 둥지동지 팀에 데이터 분석가 팀원으로 들어가게된 홍민기입니다.
데이터 분석에 발을 들이고 첫 프로젝트로 참여하게 되었습니다.
프로젝트에 대해 간단히 설명하고 어떤 작업을 수행했는지 소개하겠습니다.
둥지동지란?
간단히 요약해서, '동지 = 기숙사', '동지 = 룸메이트'를 의미하며, 기숙사생들에게 여러 질문이 담긴 설문을 주고 응답에 따라 성향을 알려주고, 룸메이트를 추천해주는 웹사이트를 만드는 프로젝트입니다.
현재로써는 위 기능이 대부분 구현가능한 상태이며, 결과지에 mbti설문 결과지처럼 캐릭터로 성향을 알려주는데 참 귀엽습니다.
데이터 분석 내용
저는 위 틀이 만들어지고 설문 내용을 분석하는 것부터 참여했습니다.
설문 내용은 여러 항목이 있는데, 그 중 취침 시간, 청소주기, 소음 민감도, 벌레 잡는 능력 등이 있고 이는 정도에 따라 보통 1~5로 수치화 되어있습니다. 이 데이터들을 기반으로 R언어를 사용해 분석한 과정을 요약 설명하겠습니다.
1. csv파일로 정리한 설문 결과들을 R studio에 불러옵니다.

2. 각 항목들을 단순 통계냅니다.
첫 번째로 시계열 분석을 통해 취침시간의 평균을 구한 결과 오전 1시 19분이 나옵니다.
다음 항목 부터는 막대그래프로 시각화합니다.

청소 주기입니다.
보통 주마다는 청소를 하는 것으로 나타납니다.
이런 식으로 다른 항목별 수치도 같은 방식으로 시각화하고 설명할 수 있습니다.
3. 상관 관계 분석하기
특정 두 항목이 얼마나 관계 있는지 시각화합니다.


두 항목의 수치를 x, y 축으로 놓고 막대그래프로 시각화합니다.
어느 정도 비례한 느낌을 시각적으로 느낄 수 있습니다.
추세선 및 산점도 그래프입니다.
추세선으로 비례하다는 것을 알 수 있고 산점도로 전체적인 구성을 알 수 있습니다.
또한 상관 계수와 p값을 구하고 특정 유의 수준을 기준으로 유의성을 판단할 수 있습니다.
다른 항목 간의 관계성도 동일한 방식으로 시각화 및 설명합니다.
4. 회귀 모델 만들기


종속 변수와 독립 변수를 설정하고 다중 회귀 모델을 만듭니다.
설명력과 p값을 통해 설명력이 부족한 것과 유의미한 변수가 존재함을 알 수 있습니다.
그렇게 어떤 변수가 특정 변수를 잘 설명하는지 파악함으로써 대신하거나 대표 가능한 항목을 알아내고, 설명력이 높은 회귀모델을 만들어 나갈 수도 있습니다.
이렇게 분석한 내용을 디자이너님께서 홍보용 포스터를 제작하고 계신데, 아름답게 만들어 주시면 제 분석 내용이 아름다워지는 것 같아 괜히 뿌듯했습니다.
추가적으로 더 분석을 이어나갈 예정입니다.