'카운트 벡터' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록카운트 벡터 (2)

Colab으로 하루에 하나씩 딥러닝

텍스트 마이닝_ 1. BOW 기반의 텍스트 마이닝_2)코사인 유사도

코사인 유사도(cosine similarity) 카운트 벡터의 활용으로 문서 간 유사도를 측정하여 사용함, 이때에 유사도 계산에 가장 많이 사용되는 척도 두 벡터가 이루는 각도의 코사인 값으로 정의 두 개의 벡터가 있을 때 벡터의 크기는 중요하지 않고 벡터의 방향성만 비교(= 각 문서는 단 두개의 단어 빈도로만 이루어져 있을 때 사용) 각도에 따른 유사도로 비교 하기 위해선 코사인 커브를 사용 특징 단어별 빈도는 최솟값이 0이므로, 좌표 표현상 각 벡터는 1 사분면에만 위치함 따라서 두 벡터 간의 각도 차이가 90˚가 넘어가지 않음 즉 두 벡터간의 가장 먼 경우에도 유사도는 90˚에 대한 코사인 값인 0보다 작아지는 경우는 없음 결론적으로 두 벡터가 가장 가까우면(각도가 일치하면) 유사도는 1, 가장 먼..

딥러닝_개념 2022. 12. 21. 23:05

한국어 영화 리뷰 카운트 벡터 변환

### 데이터 다운로드 !git clone https://github.com/wikibook/textmining.git ### 데이터 확인하기 import pandas as pd df = pd.read_csv("/content/textmining/data/daum_movie_review.csv") df.head(10) ### review 항목을 바탕으로 카운트 벡터 생성 from sklearn.feature_extraction.text import CountVectorizer daum_cv = CountVectorizer(max_features=1000) # review를 이용해 count vector를 학습하고, 변환 daum_DTM = daum_cv.fit_transform(df.review) pri..

딥러닝_프로젝트 2022. 12. 20. 12:15

이전 Prev 1 Next 다음

목록카운트 벡터 (2)

Colab으로 하루에 하나씩 딥러닝

티스토리툴바