프로젝트/주식분석_기사제목(6)
-
예측 등락률을 classifier로 바꿔봤다.
예측 등락률을 classifier로 바꿨다. 감성분류도 -1, 0, 1로 바꿔볼까..? 우선 예측 등락률만 바꿔봤다. df_joined['예측_등락률'] = df_joined['예측_등락률'].apply(lambda x: 1 if x > 0.1 else (-1 if x < -0.1 else 0)) apply lambda를 사용해서 이런 식으로 진행했다. 그랬더니 0.065가 나옴! 오;; 성과인가? positive_lexicon = ['러브', '콜', '만점', '만점', '상승', '회복', '적극', '정착', '세계최초','강세','보상','잘 만들다','정확하다','칭찬','응원','좋은','소중한','가능하다','강화하다','신뢰','민생안정','대응전략','극복방안','복원력','방도','안..
2023.08.14 -
주식 머신러닝. 테마주는 투자 조졌다. sns.heatmap까지 했는데 결과가 너무 안좋았다.
내 몸으로 테스트를 질렀는데 어제 포스팅 했던 애들이 그냥 개박살이 나버렸다. 하이브도 떨어지고 우원개발은 5%가 넘게 떨어지고 뉴보텍은 10%가 떨어지고! 이미 오를대로 올라서 그런가? 테마주가 내가 이번 주에 느낀게 있는데 딱 사건이 벌어진다! 라고 했을 때 바로바로 사야 한다. 하루 정도는 늦어도 괜찮다. 아무튼 생각하지말고 퍼뜩! 아무튼... 빡친 상태로 공부를 해보니까 좀 잘되는 것 같기도 하고 그렇다. 뉴스 df + 한국거래소에서 가져온 다음날 등락률을 join해서 NaN값은 결측처리 하고 히트맵을 돌려봤다. ㅋ. 예측 등락률과 저게 잘 맞아야 하는데 하나도 안맞네? 내 분류가 틀렸거나 그냥 프로젝트 가설 자체가 조졌거나이다. 사실 주식 예측을 한다는 것이 되게 힘든 일이긴 한데.. 그래도 잘..
2023.08.10 -
방법이 잘 안떠오른다. 투자를 하면서... 생각을 좀 해보자. 태풍 관련주, 하이브 투자.
푼돈으로 직접 투자를 하며 생각을 해보자. 현재 문제점이 뭐냐하면 ... 유명한 기업들을 빼면 기사 자체가 안나오는 날이 많다.. 요즘은 태풍이 불고 있는데 태풍 관련 주는 요즘 많이 뜨기는 하지만 최근 3개월 검색해보면 몇 개 뜨지 않는다. 그래서 어떻게 할까 하다가 일단 투자는 투자대로 하기로 했다. 우선 초전도체로 만 원 정도 이득을 봤던 게 있는데 그거는 뉴보텍 이라는 지진 테마주에 10주를 넣었다. 그리고 우원개발이라는 곳에 다 오른 마당에 투자를 조금 했다. 사람들 이미 다 알고 있는 주다. 내일은 과연 오를까? 그리고 현대, 삼성 이런 것도 많았는데 내 기준에서는 좀 관심 밖인 회사가 하나 나왔다. 하이브? 뭘까. 수집을 한다음 돌려봤다. 한국어 분류가 너무 어렵다~~ 아직 분류 안된 것 2..
2023.08.09 -
n-grams import 해서 활용하기. 슬슬 헷갈리는 부분.
지금 형태소 분류로 하고 있는데, 우리 팀 팀원분들도 언급했던 이 문제. 형태소로 분류하니까 한국어같은 경우는 굉장히 잘게 쪼개지거나 되도 않는 형태소가 나오는 경우가 많다. 예를 들면 '빨간불'이라고 가정해보자. 지금 나는 주식을 하고 있으니까.. 일반적으로 맥락상 회사에 빨간불 이라고 하면 안좋은 의미이다. 근데 이 빨갛다 라는 단어 자체는 모호하다. 종목이 상승할 때는 빨간색이잖아.. 그러면 오히려 좋은 의미이다. 지금 이 구분에서 비상이 걸렸다. 어떻게 하면 좋을까? 하며 도입을 한게 n-grams다. 예를들면 '빨간 불이 들어왔다.' 라는 문장이 있고 n-grams을 써서 문장 분류를 2로 한다면 '빨간 불' 과 '불 이', '이 들어왔' 이런 식으로 2개씩 나뉘어져서 들어오는 것. #df에서 ..
2023.08.06 -
기사를 통한 감성분석 분류해보기.
https://www.bigkinds.or.kr/ 빅카인즈(BIG KINDS) 뉴스빅데이터 분석시스템, 뉴스 속 키워드 관계망, 주요 이슈, 정보원, 이슈 트렌드 분석 정보 제공 www.bigkinds.or.kr 여기 사이트에서 뉴스분석 엑셀 다운로드를 했다. 일단 테스트를 해봐야 해서, LG 화학을 검색해 가져왔다. df = pd.read_excel('./LG화학.xlsx') xlsx 파일이어서 이렇게 pd.read_excel로 가져왔다. 왜 여태 csv를 했지? csv만의 장점이 뭐지? 약간 무지성으로 따라한 느낌이다. 이런 식으로 데이터를 가져옴. import re def test_text_preprocessing(text, mecab): stopwords = ['그리고', '그런데', '그러나',..
2023.08.05 -
anaconda에 konlpy 설치하기. windows 기준.
https://konlpy.org/ko/latest/install/#id2 설치하기 — KoNLPy 0.6.0 documentation 우분투 Supported: Xenial(16.04.3 LTS), Bionic(18.04.3 LTS), Disco(19.04), Eoan(19.10) Install dependencies # Install Java 1.8 or up $ sudo apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl Install KoNLPy $ python3 -m pip install --upgrade p konlpy.org 어려울 것 같아서 쫄 했는데 알고보니 간단했다. 아나콘다 프롬프트를 연다. conda install -c c..
2023.08.03