일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 성능 최적화
- 전이학습
- 양방향 RNN
- 텍스트 마이닝
- 카운트 벡터
- KONLPY
- 생성모델
- 과적합
- 완전연결층
- 순환 신경망
- 임베딩
- 출력층
- 코랩
- COLAB
- 딥러닝
- cnn
- 입력층
- 자연어 전처리
- 망각 게이트
- 풀링층
- 클러스터링
- 코딩테스트
- 합성곱 신경망
- 원-핫 인코딩
- 프로그래머스
- 이미지 분류
- 합성곱층
- NLTK
- RNN
- 시계열 분석
- Today
- Total
목록딥러닝_프로젝트 (2)
Colab으로 하루에 하나씩 딥러닝

데이터셋 확인 및 분리 (사이킷런 20 뉴스그룹) 해당 데이터는 언론에서 나오는 기사가 아닌 게시판에 올라온 사용자들의 포스트 categories 매개 변수를 이용해 20개의 topic 중에서 원하는 토픽을 선택할 수 있음 remove로 필요 없는 데이터 삭제 가능 각 데이터셋 내에서 .data는 텍스트의 내용,. target은 숫자로 표시된 라벨을 가져옴 ### 데이터셋 불러오기 from sklearn.datasets import fetch_20newsgroups # 20개 토픽 중 선택하고자 하는 토픽을 리스트로 생성 categories = ['alt.atheism', 'talk.religion.misc','comp.graphics','sci.space'] # 학습 데이터셋을 가져옴 newsgroup..

### 데이터 다운로드 !git clone https://github.com/wikibook/textmining.git ### 데이터 확인하기 import pandas as pd df = pd.read_csv("/content/textmining/data/daum_movie_review.csv") df.head(10) ### review 항목을 바탕으로 카운트 벡터 생성 from sklearn.feature_extraction.text import CountVectorizer daum_cv = CountVectorizer(max_features=1000) # review를 이용해 count vector를 학습하고, 변환 daum_DTM = daum_cv.fit_transform(df.review) pri..