자연어 전처리_2.전처리

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Colab으로 하루에 하나씩 딥러닝

자연어 전처리_2.전처리_2) 불용어 제거 본문

딥러닝_개념

자연어 전처리_2.전처리_2) 불용어 제거

Elleik 2022. 12. 9. 22:31

728x90

불용어

문장 내에서 빈번하게 발생하여 의미를 부여하기 어려운 단어
자연어 처리에 있어 효율성을 감소시키며, 처리 시간을 길게하기 때문에 반드시 제거해야 함
ex) 'a/an', 'the', 'of', ...

### 불용어 제거

import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')
from nltk.tokenize import word_tokenize

sample_text = """One of the first things that we ask ourselves is 
              what are the pros and cons of any task wwe perform."""
text_tokens = word_tokenize(sample_text)

tokens_without_sw = [word for word in text_tokens if not word in stopwords.words('english')]

print('불용어 제거 미적용:', text_tokens, '\n')
print('불용어 제거 적용:', tokens_without_sw)

출처: 서지영, 『딥러닝 텐서플로 교과서』, 길벗(2022)

'딥러닝_개념' 카테고리의 다른 글

자연어 전처리_3.임베딩_1) 희소 표현 기반 임베딩(원-핫 인코딩) (0)	2022.12.12
자연어 전처리_2.전처리_4) 정규화 (1)	2022.12.10
자연어 전처리_2.전처리_3) 어간 추출 / 표제어 추출 (0)	2022.12.09
자연어 전처리_2.전처리_1) 토큰화 (2)	2022.12.08
자연어 전처리_1.자연어 처리 (2)	2022.12.07

'딥러닝_개념' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Colab으로 하루에 하나씩 딥러닝

Colab으로 하루에 하나씩 딥러닝

자연어 전처리_2.전처리_2) 불용어 제거 본문

자연어 전처리_2.전처리_2) 불용어 제거

불용어

'딥러닝_개념' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역