기본 콘텐츠로 건너뛰기

[Python DS] 군집화

군집화(clustering)데이터를 군집(cluster)으로 구성하는 작업입니다.

데이터를 비슷한 집단으로 묶는 방법이라는 점에서 분류분석과 공통적이지만

분류는 레이블과 소속 집단에 대한 정보가 있는 지도학습인 반면에

군집화는 레이블과 소속 집단에 대한 정보가 없는 비지도학습입니다.



군집화의 대표적인 알고리즘은 K-평균 군집화계층적 군집이 있습니다.

그 중 K-평균 군집화의 기본 과정을 소개하겠습니다.


먼저 K개의 중심점을 임의로 선정합니다.

이후 각 데이터와 중심 사이의 거리를 계산하고, 

데이터를 가장 거리가 적은 중심으로 배정합니다.

1차 군집화가 끝나면 중심점의 위치를 군집 내의 데이터의 중간 위치로 재설정합니다.

이 과정을 반복하다가 중심점의 위치 변동이 없으면 학습을 종료합니다.


군집의 개수(K)는 사용자가 설정하는 하이퍼파라미터이고, 

이 개수를 정하는 두 가지방법에 대해 소개하겠습니다.


먼저 엘보방법입니다.

왜곡(distortion) ∑{(클러스터의 중심점 위치)-(클러스터 내의 데이터 위치)}^2  값입니다. 

 k 수에 따른 왜곡의 변화를 그래프로 나타냈을 때, 

그래프가 꺾이고 완만한 경사도를 보이기 시작하는 지점의 k값이 최적의 k값이 됩니다.

이 그래프의 경우 k의 개수가 3 혹은 4일 때가 최적의 k값이라고 판단할 수 있습니다.


다음으로는 실루엣분석입니다.

실루엣 분석은 클러스터 내에 있는 데이터가 얼마나 조밀하게 모여있는 지 측정하는 도구입니다.

a(i)가 데이터 i가 해당 클러스터 내의 데이터와 얼마나 가까운가를 나타내는 클러스터 응집력이고, b(i)가 데이터 i와 가장 가까운 다른 클러스터 내의 데이터와 얼마나 떨어져있는가를 나타내는 클러스터 분리도일 때

실루엣계수 s(i)는 다음과 같이 나타낼 수 있습니다.

s(i)=  (b(i)-a(i))/(max⁡(a(i),b(i)))

이 실루엣 계수는 -1부터 1까지의 값을 가질 수 있고, 1에 가까울수록 좋은 군집화입니다.

이 경우에는 Silhouette Score가 k=4일 때 1에 가장 가까우므로 최적의 클러스터 개수는 4개라고 판단할 수 있습니다.



UCI Machine Learning Respositary에서 온라인판매데이터를 가지고 고객을 군집화해보겠습니다.

(이 실습은 '데이터 과학 기반의 파이썬 빅데이터 분석'을 참고하였습니다.)


먼저 데이터셋을 불러오고 정보를 확인합니다.

이 데이터셋에서 활용할 주요 속성은 다음과 같습니다.

  CustomerID주문 고객 번호

  UnitPrice주문 단가

  Quantity: 주문 수량

  InvoiceDate주문 날짜와 시간




데이터전처리



이후 오류데이터와 중복데이터를 제거합니다.

데이터의 차원을 출력해보았을 때 기존 54만 여 개에서 39만 여 개로 축소된 것을 확인할 수 있습니다.


다음으로 데이터 분석을 위해 필요한 속성을 새로운 열로 추가합니다.

'Unit Price'(구매 단가)와 'Quantity'(수량)을 곱하여 'SaleAmount'(구매금액)이라는 열을 생성하였습니다.


기존 데이터셋을 고객('CustomerID')별로 그룹화한 'customer_df'라는 데이터셋을 생성합니다. 이 때 'InvoiceNo'(구매번호)는 구매 횟수(count), 'SaleAmount'(구매금액)은 구매 총량(sum), 'InvoiceDate'(구매일자)는 마지막 구매 일자(max)의 속성을 가지도록 하는데, 'InvoiceDate'열은 기준일자까지의 날 수를 계산하여 마지막 구매 일자 후 지난 날 수의 속성을 가지도록 변경합니다.

그리고 열 속성에 대한 직관적 이해를 위해 열의 이름을 재설정하였습니다. 

고객ID('CustomerID') 와 구매횟수('Freq'), 총구매량('SaleAmount'), 마지막 구매 후 지난 날 수('ElapsedDays')의 값을 가진 새로운 데이터셋을 완성했습니다.


박스플랏을 통해 고객ID를 제외한 세 열의 값의 분포를 확인해보았을 때, 박스 바깥쪽으로 데이터가 퍼져있음을 알 수 있습니다.


로그함수를 적용한 후 다시 박스플랏으로 분포를 확인해봅니다.

추가적으로 각 속성값이 정규분포를 따르도록 스케일링해줍니다.

이제 전처리가 끝났으니 세 속성에 대해 k평균 군집화 진행하면 됩니다.




클러스터 개수 선정



앞서 소개한 방법 중 엘보방법을 통해 최적의 군집 개수를 알아봅니다.


k의 값이 4일 때 그래프가 꺾이고 완만한 경사도를 보이므로 4개가 적당하다고 판단할 수 있습니다.



K-평균 군집화




군집 모델을 생성하여 훈련시킨 후, 그 예측값을 'Cluster_Label'이라는 열로 추가하였습니다. 
집이 4개이기 때문에 속성값이 0, 1, 2, 3의 값을 가짐을 확인할 수 있습니다.



결과분석



K평균 군집화는 거리 기반의 학습이기 때문에 산점도를 통해 결과를 확인하기 용이하지만 피쳐의 개수가 3개이기 때문에 군집별 각 속성의 평균값을 알아보도록 하겠습니다.

특성 확인이 용이하도록 새로운 열 평균구매금액('SaleAmountAvg')를 생성하고
모델 적용을 위해 생성한 피쳐 속성 중 원본 3개만 남깁니다.

이후 군집('Cluster_Label') 별 각 열의 평균을 계산하여 출력해보았을 때 
군집 별로 각 속성에 대해 이와 같은 차이를 보임을 확인할 수 있습니다.



author: Jiwon Min

이 블로그의 인기 게시물

[모집] 2024학년도 1학기 신규인원 모집: 3/10(일) 마감

안녕하세요, 구글 기술 앰버서더, 성균관대학교 Google Developer Student Clubs 입니다! GDSC (Google Developer Student Clubs)는 Google에서 학생들이 개발/리더십 능력을 향상할 수 있도록 지원하는 대학생 커뮤니티 프로그램입니다. 성균관대학교 GDSC는 구글 코리아, Google for Developers, SW중심대학사업단 등 다양한 단체와 협업하여 구글 기술을 대중에 알리고 관련 행사를 주최하며, 이러한 프로그램을 통해 협업성, 인적 네트워킹 및 리더십을 향상할 수 있습니다.

[11월 행사] 머신러닝/인공지능 (ML/AI) 스터디 워크샵: 사전 신청 오픈! — Google Developers 전문가와 함께하는 머신러닝/인공지능 학습, 텐서플로우 실습 및 네트워킹 기회! (11/9 사전신청 마감)

  👉 사전 신청 종료 추가적인 사전 신청을 원하시는 경우 연락 페이지 를 통해서 문의하시길 바랍니다. 업데이트 (11/8): 본 행사는 정책상 참여자 분들께서 요청하실 경우 행사 참여 확인서를 발급해드릴 예정입니다. 행사 참석 당일날 스태프 분께 말씀하시면 됩니다. 업데이트 (11/9):  상세한 행사 정보가 부분적으로 오류가 있어서 정정했습니다. (행사 시작 시간은 변경되지 않았습니다.) 기타 문의하실 사항이 있으실 경우 연락 페이지를 통해서 문의주시면 감사하겠습니다.   안녕하세요, 성균관대학교 Google Developer Student Club (GDSC) 입니다. Google Developers 전문가 분들과 함께 저희 GDSC SKKU TensorFlow 팀에서 11월 10일 💻November ML/AI Study Workshop💻을 주최합니다! 👏🏼 프로그램에서는 TensorFlow 기초 이해부터 주요 신경망 모델링 및 학습까지 TensorFlow 기술 전반에 대한 실습이 진행되며 관련 전문가 분들과의 네트워킹 기회가 제공될 예정입니다. 🍔 또한 본 행사에서는 참가자분들을 위한 간식, 음료와 간단한 저녁식사도 준비되어 있습니다! 👇🏼 이벤트 상세 내용은 아래와 같습니다. 📍 일시: 11월 10일 (금) 16:00 ~ 20:30 📍 장소: 자연과학캠퍼스 화학관 1층 330102 첨단강의실 📍 참가대상: 성균관대학교 학부생 누구나 📍 프로그램 내용 I. TensorFlow 기초 이해 II. 주요 신경망 모델링 및 학습 (CNN, Cloud Run, RNN) III. 종료 및 네트워킹 📍 진행자 이영빈 님 (GDG Songdo Organizer) 한상준 님 (GDG Songdo Organizer) 권정민 님 (Google Developer Experts) 장현수 님 ((전)성균관대학교 박사) 📍 사전 신청링크 https://gdscskku.blogspot.com/mlai-study   머신러닝 및 인공지능 분야 및 Tenso

[글로벌 IT전문가와 킹고인의 만남 시즌2] 행사 신청/참석 안내

  글로벌 IT전문가와 킹고인의 만남 시즌2에 대해 많은 관심 감사드립니다! 본 웹페이지를 통해서 학우님들의 원활한 행사 신청 및 참석을 위해 GDSC Community Platform 사용법을 안내드리고자 합니다 [카카오톡으로 링크 접속하신 경우 안내] 카카오톡 내장 브라우저에서 Google 로그인 시 "액세스 차단됨: Bevy의 요청이 Google 정책을 준수하지 않습니다"로 표시되는 사례가 확인되었습니다. 구글 계정 보안 정책상 카카오톡 내장 브라우저 내 로그인을 허용하지 않은 관계로, 디바이스에 설치된 기본 브라우저(Google Chrome 등)를 통해서 신청하시길 바랍니다. 👉 글로벌 IT전문가와 킹고인의 만남 시즌2 신청하기 플랫폼 인프라스트럭처 운영사/제공자: Google LLC/Bevy Labs, Inc. 행사 신청하기 1. GDSC 이벤트 플랫폼 웹사이트에서 구글 계정을 이용해서 로그인을 합니다. 2. (처음 로그인하는 경우) Sign up 페이지에서 필요한 정보를 입력합니다. 3. 로그인인 된 상태일 경우 "RSVP for this event now!" 아래에 온라인/오프라인 참석을 선택할 수 있습니다. 희망하시는 참석 방법 오른쪽에 있는 RSVP 버튼을 클릭하시면 됩니다. 4. RSVP 클릭 후 참석자 (Attendee Information) 입력하세요. (한글 설명, 학번, 전공 등) 5. RSVP Confirmed가 표시될 경우 신청이 완료되었음을 확인하실 수 있습니다. 행사 참석하기 (온라인) 행사가 시작될 경우 행사 웹페이지에서 [Join Event] 버튼이 표시됩니다. [Join Event] 버튼을 클릭하시면 바로 참석하실 수 있습니다. 참고: 행사 신청하신 경우 시스템 상 자동으로 이메일을 통해서 안내드립니다.

[12월 행사] ⭐ GDSC에서 연합 해커톤💻 행사를 개최합니다! 🎉

신청 URL: https://festa.io/events/4457 신청 마감시간: 12월 22일 금요일 21시 안녕하세요, 성균관대학교 Google Developer Student Club (GDSC) 입니다.  12월 28일부터 29일까지 마루 180에서 서울여자대학교, 연세대학교, 한양대학교의 GDSC 지부와 연합한 해커톤 대회를 주최하고 있습니다. 본 프로그램에서 참가자들은 서울여자대학교, 연세대학교, 한양대학교 학생들과 연합하여 팀을 구성하고 기업의 API 혹은 자체 개발 상품을 활용한 집중 해킹을 진행하며, GDE(Google Developer Experts) 및 GDG(Google Developer Groups)의 멘토링을 받아 프로젝트를 개발하고, 제휴기업 세미나 청강 및 네트워킹을 진행합니다. 행사 참가자와 수상팀에게 식사와 상품도 제공될 예정입니다. 아래 링크를 통해 이벤트 상세 내용 확인 및 티켓 구입이 가능합니다.  신청은 12월 22일 금요일 21시까지입니다. https://festa.io/events/4457 타학교 학생들과 연합하며 팀워크를 키우고 싶으신 분, 프로젝트 개발 경험을 쌓고 자신의 분야에 전문성을 키우고 싶으신 분, 전문가 및 공통 관심사의 학우들과 정보를 교환하고 협력하고 싶으신 분 모두 환영입니다! 학부생 여러분들의 많은 관심 부탁드립니다. 🙌🏼  공동 주최:  GDSC Yonsei | GDSC SWU | GDSC Hanyang | GDSC SKKU | 알파코 K-디지털 플랫폼(DT 그라운드) 주관: 성균관대학교 SW중심대학사업단 후원:  Google for Developers,  MONSTER ENERGY,  Wrtn Technologies

[9월 행사] 구글 클라우드 스터디 워크샵: 사전 숙지사항

9월달 구글 클라우드 스터디 워크샵에 신청해주신 여러분 감사드립니다. 행사 참여에 앞서, 아래의 사전 숙지사항을 반드시 확인해주시기 바랍니다. 여러분의 원활한 참여를 위해 준비 사항을 지켜주시면 감사하겠습니다. 필수 물품: 개인 노트북 필수 : 워크샵 동안 여러분의 개인 노트북을 사용하게 되는 만큼, 필히 노트북을 지참해 주시기 바랍니다. 실물 해외 신용카드 (VISA/MasterCard): GCP 계정을 생성할 때 결제 정보가 필요합니다. 권장 물품: 노트북 충전기/멀티탭: 각자의 노트북을 사용할 예정이므로 충전이 필요한 기기를 위해 노트북 충전기 및 멀티탭을 지참하시는 것을 추천드립니다. 진행장소: 성균관대학교 자연과학캠퍼스(수원) 화학관 1층 330118 첨단강의실 Google Map:  https://maps.app.goo.gl/841LUEsJB1mB8YPG6 카카오 맵: https://kko.to/-64Z139x7E 네이버 지도:  https://naver.me/GNUIWpp5