경기도미래기술학교 AI개발자 부트캠프 17일차 TIL- WordCloud란 무엇인가? 하는법.

2023. 5. 31. 18:47python

반응형

워드 클라우드란 무엇인가?

 

이거다. 키워드 간 관계는 없으나 빈도 수를 기준으로 단어들을 표현하는 방식이다. 단어의 크기가 클 수록 빈도수가 많다는 의미이다.

 

자연어 처리나 텍스트 마이닝, SNS 글 분석 등에 주로 사용 된다.

 

우리는 한국어 자연어 처리를 위해서 KONLPy(코 앤엘 파이)라는 라이브러리를 사용했다.

 

설치방법은 따로 배워야 한다.

 

설치가 끝나면

import konlpy
konlpy.__version__

이 코드로 버전 확인이 가능하다.

 

문장, 명사, 형태소 추출이다. 꼬꼬마라는 모듈의 sentences,nouns,morphs 메소드이다.

 

 

wget을 사용해서 텍스트를 다운받고 워드클라우드를 진행했다.

 

WordCloud에 generate()라는 메서드를 사용하여 텍스트 데이터를 사용한다.

imshow - axis - show는 그냥 하나의 메소드로 외우자. imshow의 매개변수 기입으로 그래프를 담은 뒤 축은 워드클라우드는 필요가 없으므로 off로 하고 show()로 보이고 마무리된다.

STOPWORDS를 set으로 형변환한 뒤 확인을 해봤다.

그리고 불용어라고 내가 원하는 언어들을 추출 금지로 추가하고 WordCloud의 인자에 stopwords라는 것을 추가한다.

그 뒤  다시 show를 하면 결과가 바뀐다.

 

이미지 안에다가 워드를 담는 작업도 했다.

np.array(img)를 하면 img 자체가 담긴다. 그 다음 mask=princess_mask라는 값을 WordCloud에 추가하여 마무리하면 된다.

 

728x90