분류 전체보기 29

[통계] Feautre Scaling; 정규화(Normalization)와 표준화(Standardization)

Feature Scalling 머신러닝을 위한 데이터를 살펴보면, 입력된 데이터는 각 컬럼별로의 피쳐가 있다. 예를 들어, 어떤 컬럼은 -1.2 부터 7.5까지의 값으로 구성되어있는데, 또 다른 컬럼은 0~4까지의 값으로 구성되어 있을 수도 있다. 이런 각자 다른 피쳐들의 값을 일정한 수준으로 맞춰주는 것을 피쳐 스케일링(Feature Scaling) 이라고 한다. 이때 적용되는 스케일링 방법이 정규화(Normalization)와 표준화(Standardization)이다. 정규화: Normalization 정규화의 목적은 데이터셋의 numerical value 범위의 차이를 왜곡하지 않고 공통 척도로 변경하는 것이다. 모든 데이터셋이 정규화 될 필요는 없고, 피처의 범위가 다른 경우에만 필요하다. Min..

카테고리 없음 2022.11.17

[삼성SDS Brightics] 서포터즈 활동 후기, FDS 이상거래 탐지 모델 보고서 공유

안녕하세요 삼성SDS Brightics 서포터즈 3기, 비전공생입니다! ​ 오늘은 너무 너무 아쉽지만, 브라이틱스 서포터즈의 마지막 포스팅이 되겠습니다. 이번 포스팅에서는 활동 후기에 대한 내용을 담을 예정인데요! ​ ​ 그 전에, 제가 브라이틱스 마지막 활동으로 진행한 FDS 이상거래 탐지 모델의 최종 보고서를 공유드리고자 합니다. https://www.brightics.ai/community/knowledge-sharing/detail/7075 많이 부족하겠지만, 한 번쯤 읽어보시고 피드백이 있으시다면 언제든 댓글 부탁드립니다! ​ ​ ​ ​ ​ 삼성SDS의 브라이틱스 서포터즈로 활동하면서 짧다면 짧고, 길다면 긴 약 5개월의 시간동안 ​ 개인 미니 프로젝트 팀 공모전 프로젝트 팀 분석 프로젝트 팀 ..

[삼성SDS Brightics] FDS 이상거래 탐지 #6편- 랜덤 포레스트 하이퍼파라미터 튜닝(Random Forest, Hyperparameter)

안녕하세요 삼성SDS Brightics 서포터즈 3기, 비전공생입니다! ​ ​ 오늘은 벌써 개인 프로젝트의 마지막 포스팅 데이입니다. 짧지는 않은 시간이었는데, 금새 이렇게 끝이 다가오니 아쉬운 마음이 크네요! ​ 일단, 지난 주에는 랜덤포레스트, XGB, AdaBoost 분류 모델을 통해 비교를 진행했는데요. 랜덤 포레스트가 Accuracy 99%, f1 83%, Precision 86%, Recall 81%의 가장 좋은 성능을 보여서, ​ 이번주는 랜덤 포레스트 모델 내에서 최대 깊이나 트리의 수 등을 바꾸면서 최적의 성능을 가지는 하이퍼파라미터를 탐색해보도록 하겠습니다. ​ 추가로, 해당 데이터셋에서 저는 오버샘플링(SMOTE)를 활용해 불균형 데이터 문제를 해결해주었는데 언더샘플링을 진행했을 때는..

[머신러닝] 분류 모델 성능 평가 지표 - Accuracy, Precision, Recall, F1 score

Classification(분류) 모델을 진행했다면, 해당 모델이 얼마나 잘 작동하는지 통계적으로 확인하는 단계가 필요하다. 이에 대한 평가 지표에 대한 개념을 정리해보자. Accuracy 가장 간단하게 성능을 평가할 수 있는 지표. 하지만, 여기서 고려할 것은 domain의 편중(bias) Accuracy는 올바르게 예측된 데이터의 수를 전체 데이터의 수로 나눈 값. *Confusion matrix True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답) False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답) False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답) True Negative(TN) : 실제 F..

[삼성SDS Brightics] FDS 이상거래 탐지 #5편- 머신러닝 모델링 (Random Forest, XGB, AdaBoost)

안녕하세요 삼성SDS Brightics 서포터즈 3기, 비전공생입니다! ​ ​ 지난 주에는 Decision Tree Classification 모델을 통해 학습을 진행해보았는데요. 이상거래인 label 1을 기준으로 보았을 때, Precision 1%, Recall 41%로 안좋은 결과를 보였습니다. ​ 이번에는 Random Forest, XGB, AdaBoost 분류 모델 3가지를 모두 진행해보고, 성능을 비교해보는 시간을 가져보려고 합니다! ​ 그 전에, 제가 지난 주에 Test 데이터에 정규화를 적용할 때 Train과 동일한 모델로 적용하는 것을 놓쳤기 때문에, 그 부분을 먼저 수정하고 진행하도록 하겠습니다. ​ ​ ​ 0. Noramalization Model Train Set에서 진행한 정규화를..

[삼성SDS Brightics] FDS 이상거래 탐지 #4편- 머신러닝 모델링 (Descision Tree Classification)

안녕하세요 삼성SDS Brightics 서포터즈 3기, 비전공생입니다! ​ ​ ​ 지난주에는 불균형 데이터의 밸런스를 맞추기 위한 작업을 오버샘플링(SMOTE) 기법을 활용하여 진행하였는데요. 이번에는 그렇게 균형을 맞춘 데이터를 기반으로 머신러닝을 학습시키고 Test데이터에 적용하여 평가를 해보려고 합니다! ​ ​ ​ 1. Decision Tree Classification Train 우선 SMOTE를 통해 균형을 맞춘 Train 데이터를 활용하여, 의사결정나무 분류모델로 학습시켜보겠습니다. ​ 해당 모델 블럭을 선택한 후, Feature Columns와 Label Column을 설정해준 후 실행해보았습니다. ​ ​ 그랬더니, 위와 같은 결과를 확인할 수 있었습니다. ​ ​ 2. Test 데이터 정규화..

[삼성SDS Brightics] FDS 이상거래 탐지 #3편- 불균형 데이터 처리 (언더샘플링, 오버샘플링, SMOTE 활용)

안녕하세요 삼성SDS Brightics 서포터즈 3기, 비전공생입니다! ​ ​ ​ 오늘은 지난주에 진행했던 전처리에 이어서 추가 전처리를 진행해볼 예정입니다. ​ 지난 주 보여드린 바와 같이, 제가 현재 다루고 있는 데이터는 불균형이 심한 데이터인데요! Fraud(이상거래)데이터와 Normal(정상거래)데이터를 살펴보았을 때, 이상거래 데이터는 492개, 정상거래 데이터는 284,315개로 구성되어있음을 확인할 수 있었습니다. ​ 위의 상태 그대로, 불균형 데이터에 대한 처리없이 학습을 진행하게 되면 모든 데이터를 정상으로 분류할 가능성이 높기때문에, 불균형 데이터를 처리하기 위한 단계가 꼭 필요합니다! ​ ​ 1. 불균형 데이터 처리 방안 불균형 데이터를 처리하기 위해서는, ① Under samplin..

[삼성SDS Brightics] FDS 신용카드 이상거래 탐지 #2편

안녕하세요 삼성SDS Brightics 서포터즈 3기, 비전공생입니다! ​ ​ ​ 오늘은 지난주에 소개해드렸던 주제와 데이터를 기반으로, 데이터를 전반적으로 살펴보고 전처리 과정을 진행해볼 예정입니다. ​ 그럼, 바로 시작하도록 하겠습니다! ​ ​ ​ ​ 1. 데이터 불러오기 우선 데이터를 불러와보도록 하겠습니다. 데이터에 대한 출처와 간단한 설명은 이전 게시물로 확인 부탁드립니다! ​ ​ 데이터를 불러왔더니, 컬럼값들이 모두 ""로 감싸져 있어, 에러가 생겼는데요! ​ ​ 컬럼에 있는 ""를 모두 삭제해주면, 위의 모습처럼 성공적으로 데이터를 불러올 수 있습니다! ​ ​ ​ 2. 데이터 살펴보기 그럼 이제 데이터를 살펴보도록 하겠습니다. 가장 먼저, null값은 없는지 확인해보겠습니다! ​ ​ 이를 위..

[삼성SDS Brightics] FDS 신용카드 이상거래 탐지 #1편

안녕하세요 삼성SDS Brightics 서포터즈 3기, 비전공생입니다! ​ ​ ​ 지난주까지 팀 분석 프로젝트를 모두 마치고, 이제 이번주부터는 개인 분석 프로젝트를 진행하게 되었습니다. ​ ​ 그 시작으로, 어떤 주제를 잡아 진행하면 좋을 지 많은 고민을 해보았습니다. 제가 개인적으로 관심있는 분야는 부동산, 금융 부분이기 때문에, 해당 주제에 포커스를 맞춰서 데이터를 찾아보았습니다. ​ ​ 그 중에서도 저는 FDS라고 불리는, 이상거래 탐지 예측 모델링을 주제로 정하였답니다! ​ ​ 여기서 FDS란, Fraud Detection System의 약자로 전자금융거래에서 사용되는 단말정보, 접속로그, 거래정보 등을 분석해서 금전 및 사적인 이득을 취하려는 부정한 거래 행위를 탐지, 분석하고 예방하는 시스템..

삼성SDS Brightics] '텍스트데이터로 MBTI 예측하기' 영상 제작기 - #3편

안녕하세요 삼성SDS Brightics 서포터즈 3기, 비전공생입니다! ​ ​ 오늘은 지난주에 이어 영상 제작에 대한 포스팅을 진행하려고 합니다. ​ 지난 9월 17일에 저희 팀원들이 모여 영상 촬영 진행 후, 영상 파일을 모두 드라이브에 공유하고 편집을 진행하였습니다! 저는 편집을 담당했기 때문에, 영상들을 다운로드 받아서 프리미어로 편집을 진행하였습니다! ​ ​ ​ 영상은 국문판, 영문판의 2가지로 제작되었는데요! ​ 국문, 영문 시나리오를 미리 워딩으로 정리해준 팀원들 덕분에 편하게 자막 작업을 진행 할 수 있었습니다! ​ ​ 결국 영상의 핵심은 브라이틱스를 사용해서 텍스트 분석까지 가능하다는 것 이었는데요! ​ ​ 쉽지 않았던 영상 제작인 만큼, 다들 재미있게 봐주셨으면 좋겠네요! 곧 삼성SDS ..