안녕하세요
삼성SDS Brightics 서포터즈 3기, 비전공생입니다!

오늘은 미니 개인 미션으로 마지막 시간입니다.
제가 잡은 데이터분석 주제는 "집값 예측하기"였는데요.
지난주에는 ANOVA 분석을 진행해보았고,
이번주에는 예측 모델링을 진행할 예정입니다.
아직 데이터분석과 모델링에 대한 이해가 부족하여,
결론적으로는 예측 모델링에 성공적인 결과를 얻지는 못하였지만
다양한 모델링 중에서도 다중회귀분석의 프로세스에 대해 이해할 수 있었던 시간이었던 것 같습니다.
여러모로 부족함도 많이 느끼고, 제대로 쌓아야 할 기본기에 대해서 깨닫게 되었습니다.
부족하지만 제가 모델링을 배워나가는 과정을 함께 지켜봐주시면 감사하겠습니다!
저는 "다중회귀분석"을 이용해서 예측 모델링을 진행해보았는데요.
예측 모델링 과정에서 필요한 단계들을 하나씩 다시 짚어보겠습니다.
1. Price컬럼 로그변환, 데이터 분할 후 Scatter plot 확인
데이터를 로드해준 후에는, Add Fuction Column을 이용하여 Price에 대한 로그 변환을 해주었습니다.

New Column명을 log_price로 설정해주고,
log(price)라는 코드를 작성해주었습니다.

그 이후, split data를 통해 데이터 테이블을 2개로 분할하고,

scatter plot으로 확인해보면, 어느정도 직석의 형태를 보이는 것을 확인할 수 있습니다.
2. 상관관계 확인
Correlation을 통해 독립변수와 종속변수와의 상관관계를 확인해보겠습니다.
다중회귀분석이므로, 컬럼값을 여러개 넣어 확인해보았습니다.

여기서 부터 저의 예측 모델링에 어려움을 느끼기 시작하였는데요..!
변수간 상관관계가 굉장히 낮은편이고,
높은 변수들은 화장실과 방의 관계나 주거 면적과 화장실의 관계 같은 당연한 것 뿐이었습니다.
(sqlf_living, sqlf_lot은 주거 평방 피트, 부지 평방 피트를 의미합니다)
3. Train, Test 데이터 분리
어찌되었든 예측 모델링을 진행해보아야 했기에, Split Data를 이용해 데이터를 분리해보았습니다.

Train 데이터와 Test 데이터의 비율은 7:3으로 진행하고,
Seed는 123으로 입력하여 진행하였습니다.
여기서 다시 한번 브라이틱스의 편리함을 느꼈는데요!
그냥 Split Data 버튼을 클릭하고, 비율만 맞추면 알아서 데이터를 분리해주어서
정말 편리한 것 같습니다!
4. Linear Regression Train / Predict 진행
종속변수와 독립변수를 선택한 후 회귀분석을 실행해보겠습니다.
Linear Regression Train 이므로, 데이터는 Train Data를 인풋해줍니다.
그리고 Feature 컬럼에는 사용할 변수들을 추가해줍니다.
Label column에는 price를 넣어 해당 컬럼에 따라 어떻게 집값이 영향을 받는지 확인합니다.

R-squared의 값을 확인해보니, 두둥..
저는 순간 91%인줄 알았는데, 9%의 설명력..
처참한 결과를 확인하였지만, 일단 이 분석을 마무리해야했기에
Linear Regression Predict를 진행해주었습니다.

위의 Train에서 생성된 회귀모델을 인풋에 연결해주어 예측을 진행했습니다.
어떤 결과가 나왔을까요?
5. Evaluate Regression
Linear Regression Predict의 예측에 대한 평가를 진행해보겠습니다.

Prediction Column은 predict를 넣어주고, Label Column에는 연식 컬럼을 넣어보았습니다.
그 결과 위의 모습처럼 좋지 않은 숫자를 확인할 수 있었습니다.
기본기가 부족하다보니, 예측 모델링을 진행하니 모르는 부분이 많고
정확히 어떤 부분을 수정해서 진행해야 하는지를 이해하기 어려웠던 것 같습니다.
이번 미니 개인미션은 이번주로 끝나지만,
개인적으로 다시 이 데이터를 기반으로 분석을 진행해보고
좋은 결과를 확인하게 되면 다시 블로그에 글을 올려보려고 합니다!
그럼 저는 이쯤에서 글을 마무리해보겠습니다.
다음 주에는 브라이틱스를 통해 공모전을 준비하는 과정과
추가로 집값 데이터 분석이 진행되는대로 글을 작성하여 올려보도록 하겠습니다!
*본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.
'삼성SDS Brightics > 브라이틱스 서포터즈' 카테고리의 다른 글
[삼성SDS Brightics] '텍스트데이터로 MBTI 예측하기' 팀 분석 프로젝트 - 2편 (0) | 2022.08.23 |
---|---|
[삼성SDS Brightics] '텍스트데이터로 MBTI 예측하기' 팀 분석 프로젝트 - 1편 (0) | 2022.08.16 |
[삼성SDS Brightics] 부동산 데이터로 집 값 예측하기 - 2편 (0) | 2022.07.05 |
[삼성SDS Brightics] 브라이틱스 서포터즈 3기 발대식 후기 (0) | 2022.06.26 |
[삼성SDS Brightics] 설치부터 분석 실습까지! (다운로드 및 체험 리뷰) (0) | 2022.06.20 |