[Python DS] 군집화

군집화(clustering)는 데이터를 군집(cluster)으로 구성하는 작업입니다.

데이터를 비슷한 집단으로 묶는 방법이라는 점에서 분류분석과 공통적이지만

분류는 레이블과 소속 집단에 대한 정보가 있는 지도학습인 반면에

군집화는 레이블과 소속 집단에 대한 정보가 없는 비지도학습입니다.

군집화의 대표적인 알고리즘은 K-평균 군집화와 계층적 군집이 있습니다.

그 중 K-평균 군집화의 기본 과정을 소개하겠습니다.

먼저 K개의 중심점을 임의로 선정합니다.

이후 각 데이터와 중심 사이의 거리를 계산하고,

데이터를 가장 거리가 적은 중심으로 배정합니다.

1차 군집화가 끝나면 중심점의 위치를 군집 내의 데이터의 중간 위치로 재설정합니다.

이 과정을 반복하다가 중심점의 위치 변동이 없으면 학습을 종료합니다.

군집의 개수(K)는 사용자가 설정하는 하이퍼파라미터이고,

이 개수를 정하는 두 가지방법에 대해 소개하겠습니다.

먼저 엘보방법입니다.

왜곡(distortion)은 ∑{(클러스터의 중심점 위치)-(클러스터 내의 데이터 위치)}^2 값입니다.

k 수에 따른 왜곡의 변화를 그래프로 나타냈을 때,

그래프가 꺾이고 완만한 경사도를 보이기 시작하는 지점의 k값이 최적의 k값이 됩니다.

이 그래프의 경우 k의 개수가 3 혹은 4일 때가 최적의 k값이라고 판단할 수 있습니다.

다음으로는 실루엣분석입니다.

실루엣 분석은 클러스터 내에 있는 데이터가 얼마나 조밀하게 모여있는 지 측정하는 도구입니다.

a(i)가 데이터 i가 해당 클러스터 내의 데이터와 얼마나 가까운가를 나타내는 클러스터 응집력이고, b(i)가 데이터 i와 가장 가까운 다른 클러스터 내의 데이터와 얼마나 떨어져있는가를 나타내는 클러스터 분리도일 때

실루엣계수 s(i)는 다음과 같이 나타낼 수 있습니다.

s(i)= (b(i)-a(i))/(max⁡(a(i),b(i)))

이 실루엣 계수는 -1부터 1까지의 값을 가질 수 있고, 1에 가까울수록 좋은 군집화입니다.

이 경우에는 Silhouette Score가 k=4일 때 1에 가장 가까우므로 최적의 클러스터 개수는 4개라고 판단할 수 있습니다.

UCI Machine Learning Respositary에서 온라인판매데이터를 가지고 고객을 군집화해보겠습니다.

(이 실습은 '데이터 과학 기반의 파이썬 빅데이터 분석'을 참고하였습니다.)

먼저 데이터셋을 불러오고 정보를 확인합니다.

이 데이터셋에서 활용할 주요 속성은 다음과 같습니다.

CustomerID: 주문 고객 번호

UnitPrice: 주문 단가

Quantity: 주문 수량

InvoiceDate: 주문 날짜와 시간

데이터전처리

이후 오류데이터와 중복데이터를 제거합니다.

데이터의 차원을 출력해보았을 때 기존 54만 여 개에서 39만 여 개로 축소된 것을 확인할 수 있습니다.

다음으로 데이터 분석을 위해 필요한 속성을 새로운 열로 추가합니다.

'Unit Price'(구매 단가)와 'Quantity'(수량)을 곱하여 'SaleAmount'(구매금액)이라는 열을 생성하였습니다.

기존 데이터셋을 고객('CustomerID')별로 그룹화한 'customer_df'라는 데이터셋을 생성합니다. 이 때 'InvoiceNo'(구매번호)는 구매 횟수(count), 'SaleAmount'(구매금액)은 구매 총량(sum), 'InvoiceDate'(구매일자)는 마지막 구매 일자(max)의 속성을 가지도록 하는데, 'InvoiceDate'열은 기준일자까지의 날 수를 계산하여 마지막 구매 일자 후 지난 날 수의 속성을 가지도록 변경합니다.

그리고 열 속성에 대한 직관적 이해를 위해 열의 이름을 재설정하였습니다.

고객ID('CustomerID') 와 구매횟수('Freq'), 총구매량('SaleAmount'), 마지막 구매 후 지난 날 수('ElapsedDays')의 값을 가진 새로운 데이터셋을 완성했습니다.

박스플랏을 통해 고객ID를 제외한 세 열의 값의 분포를 확인해보았을 때, 박스 바깥쪽으로 데이터가 퍼져있음을 알 수 있습니다.

로그함수를 적용한 후 다시 박스플랏으로 분포를 확인해봅니다.

추가적으로 각 속성값이 정규분포를 따르도록 스케일링해줍니다.

이제 전처리가 끝났으니 세 속성에 대해 k평균 군집화 진행하면 됩니다.

클러스터 개수 선정

앞서 소개한 방법 중 엘보방법을 통해 최적의 군집 개수를 알아봅니다.

k의 값이 4일 때 그래프가 꺾이고 완만한 경사도를 보이므로 4개가 적당하다고 판단할 수 있습니다.

K-평균 군집화

군집 모델을 생성하여 훈련시킨 후, 그 예측값을 'Cluster_Label'이라는 열로 추가하였습니다.

군집이 4개이기 때문에 속성값이 0, 1, 2, 3의 값을 가짐을 확인할 수 있습니다.

결과분석

K평균 군집화는 거리 기반의 학습이기 때문에 산점도를 통해 결과를 확인하기 용이하지만 피쳐의 개수가 3개이기 때문에 군집별 각 속성의 평균값을 알아보도록 하겠습니다.

특성 확인이 용이하도록 새로운 열 평균구매금액('SaleAmountAvg')를 생성하고

모델 적용을 위해 생성한 피쳐 속성 중 원본 3개만 남깁니다.

이후 군집('Cluster_Label') 별 각 열의 평균을 계산하여 출력해보았을 때

군집 별로 각 속성에 대해 이와 같은 차이를 보임을 확인할 수 있습니다.

author: Jiwon Min

이 블로그의 인기 게시물

[글로벌 IT전문가와 킹고인의 만남 시즌2] 행사 신청/참석 안내

글로벌 IT전문가와 킹고인의 만남 시즌2에 대해 많은 관심 감사드립니다! 본 웹페이지를 통해서 학우님들의 원활한 행사 신청 및 참석을 위해 GDSC Community Platform 사용법을 안내드리고자 합니다 [카카오톡으로 링크 접속하신 경우 안내] 카카오톡 내장 브라우저에서 Google 로그인 시 "액세스 차단됨: Bevy의 요청이 Google 정책을 준수하지 않습니다"로 표시되는 사례가 확인되었습니다. 구글 계정 보안 정책상 카카오톡 내장 브라우저 내 로그인을 허용하지 않은 관계로, 디바이스에 설치된 기본 브라우저(Google Chrome 등)를 통해서 신청하시길 바랍니다. 👉 글로벌 IT전문가와 킹고인의 만남 시즌2 신청하기 플랫폼 인프라스트럭처 운영사/제공자: Google LLC/Bevy Labs, Inc. 행사 신청하기 1. GDSC 이벤트 플랫폼 웹사이트에서 구글 계정을 이용해서 로그인을 합니다. 2. (처음 로그인하는 경우) Sign up 페이지에서 필요한 정보를 입력합니다. 3. 로그인인 된 상태일 경우 "RSVP for this event now!" 아래에 온라인/오프라인 참석을 선택할 수 있습니다. 희망하시는 참석 방법 오른쪽에 있는 RSVP 버튼을 클릭하시면 됩니다. 4. RSVP 클릭 후 참석자 (Attendee Information) 입력하세요. (한글 설명, 학번, 전공 등) 5. RSVP Confirmed가 표시될 경우 신청이 완료되었음을 확인하실 수 있습니다. 행사 참석하기 (온라인) 행사가 시작될 경우 행사 웹페이지에서 [Join Event] 버튼이 표시됩니다. [Join Event] 버튼을 클릭하시면 바로 참석하실 수 있습니다. 참고: 행사 신청하신 경우 시스템 상 자동으로 이메일을 통해서 안내드립니다.

자세한 내용 보기

GCP(Google Cloud Platform) 소개

개요 “클라우드”에 대해 들어보신 적이 있나요? 클라우드란 서버, 스토리지, 데이터베이스 등의 다양한 컴퓨팅 서비스를 인터넷을 통해 제공하는 것을 말합니다. "클라우드? 그게 뭐죠?"라고 생각하실 수도 있겠지만, 이미 클라우드의 개념은 우리 일상 속에 자리잡아 아주 큰 지분을 차지하고 있습니다. GCP란? GCP(Google Cloud Platform)는 구글의 클라우드 플랫폼 서비스로, 유저가 손쉽게 구글의 컴퓨팅 자원을 사용할 수 있도록 다양한 도구와 기술을 제공합니다. 스마트폰에 저장된 사진부터 대형 기업들의 비즈니스 데이터까지, GCP는 모든 것을 안전하게 보관하고 처리하는 역할을 수행하고 있습니다. GCP와 함께라면 가능한 일들 Computing Engine 이 서비스는 마치 가상의 컴퓨터를 빌려주는 것과 같습니다. 만약 큰 데이터를 분석하거나 특별한 프로그램을 실행하고 싶을 때, 집의 일반 PC로는 어렵다면 Compute Engine을 통해 강력한 컴퓨터를 임시로 사용할 수 있습니다. 만약 연구 프로젝트를 진행하려고 하는데, 광범위한 데이터 세트를 분석해야 한다고 해봅시다. 그러나 집에 있는 개인용 컴퓨터로는 처리 속도나 메모리 용량 등의 문제로 인해 이 데이터 분석을 효과적으로 수행하기 어려울 수 있습니다. 이때, 구글 클라우드의 Compute Engine을 사용하면, 필요한 사양의 가상 머신을 선택하고, 필요한 도구와 소프트웨어를 설치한 후, 큰 데이터 세트를 효율적으로 분석할 수 있습니다. 분석이 끝나면, 해당 가상 머신을 종료하면서 사용한 시간만큼의 비용을 지불하게 됩니다. 또한, 웹 개발자라면, 신규 웹 서비스의 테스트 환경을 만들기 위해 Compute Engine을 활용할 수 있습니다. 특정 국가에서의 서비스 테스트, 다양한 환경에서의 성능 체크 등 여러 시나리오를 효과적으로 구현해 볼 수 있죠. 이렇게 Compute Engine은 각종 연구, 개발, 테스트 등 다양한 분야에서 활용될 수 있어, 사용...

자세한 내용 보기

[모집] 2024학년도 1학기 신규인원 모집: 3/10(일) 마감

안녕하세요, 구글 기술 앰버서더, 성균관대학교 Google Developer Student Clubs 입니다! GDSC (Google Developer Student Clubs)는 Google에서 학생들이 개발/리더십 능력을 향상할 수 있도록 지원하는 대학생 커뮤니티 프로그램입니다. 성균관대학교 GDSC는 구글 코리아, Google for Developers, SW중심대학사업단 등 다양한 단체와 협업하여 구글 기술을 대중에 알리고 관련 행사를 주최하며, 이러한 프로그램을 통해 협업성, 인적 네트워킹 및 리더십을 향상할 수 있습니다.

자세한 내용 보기

[11월 행사] 머신러닝/인공지능 (ML/AI) 스터디 워크샵: 사전 신청 오픈! — Google Developers 전문가와 함께하는 머신러닝/인공지능 학습, 텐서플로우 실습 및 네트워킹 기회! (11/9 사전신청 마감)

👉 사전 신청 종료 추가적인 사전 신청을 원하시는 경우 연락 페이지 를 통해서 문의하시길 바랍니다. 업데이트 (11/8): 본 행사는 정책상 참여자 분들께서 요청하실 경우 행사 참여 확인서를 발급해드릴 예정입니다. 행사 참석 당일날 스태프 분께 말씀하시면 됩니다. 업데이트 (11/9): 상세한 행사 정보가 부분적으로 오류가 있어서 정정했습니다. (행사 시작 시간은 변경되지 않았습니다.) 기타 문의하실 사항이 있으실 경우 연락 페이지를 통해서 문의주시면 감사하겠습니다. 안녕하세요, 성균관대학교 Google Developer Student Club (GDSC) 입니다. Google Developers 전문가 분들과 함께 저희 GDSC SKKU TensorFlow 팀에서 11월 10일 💻November ML/AI Study Workshop💻을 주최합니다! 👏🏼 프로그램에서는 TensorFlow 기초 이해부터 주요 신경망 모델링 및 학습까지 TensorFlow 기술 전반에 대한 실습이 진행되며 관련 전문가 분들과의 네트워킹 기회가 제공될 예정입니다. 🍔 또한 본 행사에서는 참가자분들을 위한 간식, 음료와 간단한 저녁식사도 준비되어 있습니다! 👇🏼 이벤트 상세 내용은 아래와 같습니다. 📍 일시: 11월 10일 (금) 16:00 ~ 20:30 📍 장소: 자연과학캠퍼스 화학관 1층 330102 첨단강의실 📍 참가대상: 성균관대학교 학부생 누구나 📍 프로그램 내용 I. TensorFlow 기초 이해 II. 주요 신경망 모델링 및 학습 (CNN, Cloud Run, RNN) III. 종료 및 네트워킹 📍 진행자 이영빈 님 (GDG Songdo Organizer) 한상준 님 (GDG Songdo Organizer) 권정민 님 (Google Developer Experts) 장현수 님 ((전)성균관대학교 박사) 📍 사전 신청링크 https://gdscskku.blogspot.com/mlai-study 머신러...

자세한 내용 보기

[62회] 매년 바뀌는 프론트엔드 분야에서 개발자가 살아남는 방법 - 글로벌 IT전문가와 킹고인의 만남 시즌2 예순두번째 만남

글로벌 IT전문가와 킹고인의 만남 시즌2 62회차 강연자를 소개합니다! 안녕하세요, 미래의 IT 리더 여러분! 세계적으로 인정받는 글로벌 IT 전문가 Naman Gupta가 성균관대학교를 방문해 대학생들을 대상으로 특별한 강연을 개최합니다. Naman Gupta 님는 Neurotone AI의 시니어 소프트웨어 엔지니어로 활동하며, Google Developer Groups 뉴델리의 공동 조직자이자 Google Summer of Code 2017 수상자입니다. Naman Gupta 님의 강연에서는 인공지능, 머신러닝, 웹 개발 등 최신 IT 트렌드와 혁신적인 제품 개발 방법을 배울 수 있습니다. 또한, 글로벌 기업에서의 커리어 쌓기와 스타트업 창업 노하우도 공유할 예정입니다. 특히 IT 분야에 관심 있는 대학생들에게 큰 도움이 되는 만큼 많은 참여 부탁드립니다! 매년 바뀌는 프론트엔드 분야에서 개발자가 살아남는 방법 Surviving as a Developer in the Ever-Changing Frontend Field 📆 일시: 2024년 9월 12일(목) 12:00 ~ 13:00 💡 강연방식: 온/오프 하이브리드 강연 🔎 강연자: Naman Gupta (GDG New Delhi/University of Wisconsin-Madison) 🎬 강연참여 - 오프라인 강연 참여 (20명 선착순) : 자연과학캠퍼스 삼성학술정보관 2층 솦ː공방 인(仁) 480209호 - 온라인 강연 참여 : 신청자에 한하여 신청 이메일로 강연링크 발송 * 오프라인 참여 학생 : 약속을 지키는 성균인! NoShow 불가! 🏆 참석혜택 - 오프라인 참석 학생들에게 간단 도시락 증정 (종료 후) - 온/오프 참석 전원 AI품 비교과 1시간 인정 - 온/오프 참석 전원 킹고코인 마일리지 10코인 부여 👉 신청방법 가이드: https://gdscskku.blogspot.com/2024/03/itglobalseminar-help.html 👉 행사 참석 URL (신청 필요...

자세한 내용 보기

성균관대학교 | Google Developer Student Clubs