텍스트 분석 – 텍스트 전처리
텍스트 분석을 하기 위해서 전처리과정이 필요
전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업입니다.
<텍스트 전처리를 위한 파이썬 패키지>
Konlpy는 한국어 형태소룰 분석하는 패키지
Nltk는 영어를 분석하는 패키지 - pip install nltk
<데이터 분석을 위한 추가 패키지>
pandas, numpy. Matpoltlib
전처리 과정
1. 토큰화 - 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 합니다. 보통 의미있는 단위로 토큰을 정의
2. 정제 및 정규화
- 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 일이 항상 함께한다
정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
Ex) 특수문자, 불용어(사용하지않은 단어) 제거 -> 정규표현식을 통해 제거
정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다
Ex) USA , US 를 하나의 단어로 정규화/
대소문자 통합 (Automobile = automobile)
3. 어간추출 및 표제어 추출
정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법
표제어 (기본 사전형 단어)추출 – am, are, is -> be
어간추출 - 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업 – 규칙 : ALIZE → AL/ formalize → formal
4. 불용어(stopwords)
큰 의미가 없는 단어 토큰을 제거하는 작업
Ex) I, my, me, over, 조사, 접미사 같은 단어
NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의
1-1. 빈도수 분석 실습