n-grams import 해서 활용하기. 슬슬 헷갈리는 부분.
지금 형태소 분류로 하고 있는데, 우리 팀 팀원분들도 언급했던 이 문제. 형태소로 분류하니까 한국어같은 경우는 굉장히 잘게 쪼개지거나 되도 않는 형태소가 나오는 경우가 많다. 예를 들면 '빨간불'이라고 가정해보자. 지금 나는 주식을 하고 있으니까.. 일반적으로 맥락상 회사에 빨간불 이라고 하면 안좋은 의미이다. 근데 이 빨갛다 라는 단어 자체는 모호하다. 종목이 상승할 때는 빨간색이잖아.. 그러면 오히려 좋은 의미이다. 지금 이 구분에서 비상이 걸렸다. 어떻게 하면 좋을까? 하며 도입을 한게 n-grams다. 예를들면 '빨간 불이 들어왔다.' 라는 문장이 있고 n-grams을 써서 문장 분류를 2로 한다면 '빨간 불' 과 '불 이', '이 들어왔' 이런 식으로 2개씩 나뉘어져서 들어오는 것. #df에서 ..
2023.08.06