일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- cnn
- 시계열 분석
- 이미지 분류
- KONLPY
- 성능 최적화
- COLAB
- 생성모델
- 전이학습
- 풀링층
- NLTK
- 합성곱층
- 코랩
- 합성곱 신경망
- 완전연결층
- 프로그래머스
- 망각 게이트
- 카운트 벡터
- 원-핫 인코딩
- RNN
- 과적합
- 순환 신경망
- 클러스터링
- 딥러닝
- 텍스트 마이닝
- 임베딩
- 입력층
- 자연어 전처리
- 출력층
- 양방향 RNN
- 코딩테스트
- Today
- Total
목록카운트 벡터 (2)
Colab으로 하루에 하나씩 딥러닝

코사인 유사도(cosine similarity) 카운트 벡터의 활용으로 문서 간 유사도를 측정하여 사용함, 이때에 유사도 계산에 가장 많이 사용되는 척도 두 벡터가 이루는 각도의 코사인 값으로 정의 두 개의 벡터가 있을 때 벡터의 크기는 중요하지 않고 벡터의 방향성만 비교(= 각 문서는 단 두개의 단어 빈도로만 이루어져 있을 때 사용) 각도에 따른 유사도로 비교 하기 위해선 코사인 커브를 사용 특징 단어별 빈도는 최솟값이 0이므로, 좌표 표현상 각 벡터는 1 사분면에만 위치함 따라서 두 벡터 간의 각도 차이가 90˚가 넘어가지 않음 즉 두 벡터간의 가장 먼 경우에도 유사도는 90˚에 대한 코사인 값인 0보다 작아지는 경우는 없음 결론적으로 두 벡터가 가장 가까우면(각도가 일치하면) 유사도는 1, 가장 먼..

### 데이터 다운로드 !git clone https://github.com/wikibook/textmining.git ### 데이터 확인하기 import pandas as pd df = pd.read_csv("/content/textmining/data/daum_movie_review.csv") df.head(10) ### review 항목을 바탕으로 카운트 벡터 생성 from sklearn.feature_extraction.text import CountVectorizer daum_cv = CountVectorizer(max_features=1000) # review를 이용해 count vector를 학습하고, 변환 daum_DTM = daum_cv.fit_transform(df.review) pri..