일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 입력층
- 양방향 RNN
- 망각 게이트
- 전이학습
- 원-핫 인코딩
- KONLPY
- 임베딩
- NLTK
- 클러스터링
- 과적합
- 시계열 분석
- 합성곱층
- cnn
- 풀링층
- 이미지 분류
- 자연어 전처리
- 합성곱 신경망
- 순환 신경망
- 텍스트 마이닝
- COLAB
- 프로그래머스
- RNN
- 코딩테스트
- 출력층
- 완전연결층
- 성능 최적화
- 생성모델
- 딥러닝
- 코랩
- 카운트 벡터
- Today
- Total
목록텍스트 마이닝 (5)
Colab으로 하루에 하나씩 딥러닝

로지스틱 회귀분석 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우, 개별 관측들이 어느 집단에 분류될 수 있는 예측하는 모형 분석 절차 각 집단에 속하는 확률의 추정치를 예측, 추정치는 이진 분류의 경우 집단에 속하는 확률로 구함 분류 기준 값을 설정한 후 특정 범수로 분류 일반적인 회귀분석과 차이가 있음 구분 일반적인 회귀분석 로지스틱 회귀분석 종속변수 연속형 변수 이산형 변수 모형 탐색 방법 최소제곱법 최대우도법 모형 검정 F-테스트 x² 테스트 로지스틱 회귀분석을 이용한 문서 분류 2022.12.22 - [딥러닝_프로젝트] - 20 뉴스그룹 데이터 준비 및 특성 추출 20 뉴스그룹 데이터 준비 및 특성 추출 데이터셋 확인 및 분리 (사이킷런 20 뉴스그룹) 해당 데이터는 언..

나이브 베이즈(cosine similarity) 사전 확률에 기반을 두고 사후 확률을 추론하는 확률적 예측을 하는데, 이때 모든 사건이 독립사건이라는 순진한(naive) 가정을 하고 있음 P(A ¦ B) = (P(A ∩ B)) / (P(B)) 전제: 사건 B가 일어나고 사건 A가 발생함 P(A): 사건 A가 일어날 확률 P(B): 사건 B가 일어날 확률, 사건 A가 발생하기 전 사건 B가 일어날 확률, 사전확률 P(A¦B): 사건 B가 일어난 후 사건 A가 일어날 확률, 조건부 확률 P(B¦A): 사건 A가 일어났을 때 사건 B가 앞서 일어났을 확률, 사후확률 복잡하게 섞여 있는 문제를 비슷한 성격을 가진 특성(feature)으로 분류 특정 영화를 보고 A와 B가 긍정적인 반응을 보였다면, 두 사람의 영..

데이터셋 확인 및 분리 (사이킷런 20 뉴스그룹) 해당 데이터는 언론에서 나오는 기사가 아닌 게시판에 올라온 사용자들의 포스트 categories 매개 변수를 이용해 20개의 topic 중에서 원하는 토픽을 선택할 수 있음 remove로 필요 없는 데이터 삭제 가능 각 데이터셋 내에서 .data는 텍스트의 내용,. target은 숫자로 표시된 라벨을 가져옴 ### 데이터셋 불러오기 from sklearn.datasets import fetch_20newsgroups # 20개 토픽 중 선택하고자 하는 토픽을 리스트로 생성 categories = ['alt.atheism', 'talk.religion.misc','comp.graphics','sci.space'] # 학습 데이터셋을 가져옴 newsgroup..

코사인 유사도(cosine similarity) 카운트 벡터의 활용으로 문서 간 유사도를 측정하여 사용함, 이때에 유사도 계산에 가장 많이 사용되는 척도 두 벡터가 이루는 각도의 코사인 값으로 정의 두 개의 벡터가 있을 때 벡터의 크기는 중요하지 않고 벡터의 방향성만 비교(= 각 문서는 단 두개의 단어 빈도로만 이루어져 있을 때 사용) 각도에 따른 유사도로 비교 하기 위해선 코사인 커브를 사용 특징 단어별 빈도는 최솟값이 0이므로, 좌표 표현상 각 벡터는 1 사분면에만 위치함 따라서 두 벡터 간의 각도 차이가 90˚가 넘어가지 않음 즉 두 벡터간의 가장 먼 경우에도 유사도는 90˚에 대한 코사인 값인 0보다 작아지는 경우는 없음 결론적으로 두 벡터가 가장 가까우면(각도가 일치하면) 유사도는 1, 가장 먼..

카운트 기반 문서 표현 문서의 의미를 반영해 벡터를 만드는 과정 단어의 빈도를 파악하여 문서의 내용을 파악 ex) 막대그래프, 워드 클라우드 전체 말뭉치에 한 번이라도 사용된 단어는 문서에 없더라도 특성에 포함하고 빈도를 0으로 주어 문서를 비교할 수 있도록 동일한 특성을 갖게 함 카운트 기반의 문서표현은 개별 문서가 아닌 말뭉치를 대상으로 함 문제점 문서를 표현하기 위해 너무나 많은 특성을 사용해야 함 대부분의 값이 0인 희소 벡터(sparse vector)를 사용하므로 저장공간과 연산 측면에 비효율적 BOW(Bags of Words)기반 문서 표현 단어별 카운트를 기반으로 문서로부터 특성을 추출하고 표현하는 방식 대상 문서를 BOW 기반으로 빈도를 계산하면 특성 벡터를 구할 수 있음 특성 벡터 추출 ..