2023. 5. 31. 18:47ㆍpython
워드 클라우드란 무엇인가?
이거다. 키워드 간 관계는 없으나 빈도 수를 기준으로 단어들을 표현하는 방식이다. 단어의 크기가 클 수록 빈도수가 많다는 의미이다.
자연어 처리나 텍스트 마이닝, SNS 글 분석 등에 주로 사용 된다.
우리는 한국어 자연어 처리를 위해서 KONLPy(코 앤엘 파이)라는 라이브러리를 사용했다.
설치방법은 따로 배워야 한다.
설치가 끝나면
import konlpy
konlpy.__version__
이 코드로 버전 확인이 가능하다.
문장, 명사, 형태소 추출이다. 꼬꼬마라는 모듈의 sentences,nouns,morphs 메소드이다.
wget을 사용해서 텍스트를 다운받고 워드클라우드를 진행했다.
WordCloud에 generate()라는 메서드를 사용하여 텍스트 데이터를 사용한다.
imshow - axis - show는 그냥 하나의 메소드로 외우자. imshow의 매개변수 기입으로 그래프를 담은 뒤 축은 워드클라우드는 필요가 없으므로 off로 하고 show()로 보이고 마무리된다.
STOPWORDS를 set으로 형변환한 뒤 확인을 해봤다.
그리고 불용어라고 내가 원하는 언어들을 추출 금지로 추가하고 WordCloud의 인자에 stopwords라는 것을 추가한다.
그 뒤 다시 show를 하면 결과가 바뀐다.
이미지 안에다가 워드를 담는 작업도 했다.
np.array(img)를 하면 img 자체가 담긴다. 그 다음 mask=princess_mask라는 값을 WordCloud에 추가하여 마무리하면 된다.
'python' 카테고리의 다른 글
경기도미래기술학교 AI개발자 부트캠프 20일차 TIL- Numpy를 배운날. Numpy란? ndarray ,reshape (0) | 2023.06.05 |
---|---|
셀레니움으로 티스토리 블로그 포스팅 편하게 하기. 로그인 - 글쓰기 - 임시저장까지. (0) | 2023.06.04 |
matplotlib 좌표 용어 정리. (0) | 2023.05.30 |
토대가 탄탄한 1층 쌓기. - 파이썬 문법 복습. 튜플, 리스트 컴프리헨션, 파일 생성, 입출력. (0) | 2023.05.29 |
판다스 복습 계속. (0) | 2023.05.27 |