Yeon's 개발블로그

지식을 전파하는 개발자가 되고싶습니다.

NLP 2

4. 전처리

전처리란? 머신러닝 또는 딥러닝 학습을 위해 데이터를 사용할 때, 모델이 사용가능할 수 있는 형태로 변환하고 품질을 올리는 과정을 전처리과정이라고 한다. 자연어처리에서 자주 등장하는 코퍼스(corpus)는 한국말로 말뭉치라고도 하며, 여러 단어들로 이루어진 문장을 뜻한다. 코퍼스가 많고 오류가 없을수록 자연어처리 모델의 정확도가 높아진다. 자연어처리에서 전처리과정은 코퍼스수집-> 정제 -> 문장단위분절 -> 분절 -> 병렬코퍼스 정렬 -> 서브워드 분절 의 과정으로 이루어진다. 이제부터 하나씩 살펴보려고 한다. 1. 코퍼스 수집 공개된 데이터를 사용하거나 크롤링을 통하여 코퍼스를 수집할 수 있다. 한가지 언어로 구성된 단일언어 코퍼스는 인터넷에 널려있기 때문에 수집하기 쉽지만, 목적에 맞게 적절한 코퍼스..

NLP 2021.07.19

1. 자연어 처리란?

1. 자연어 처리, NLP Natural Language Processing, 줄여서 NLP는 인공지능의 한 분야로, 컴퓨터가 사람의 언어를 이해하고 처리하는 기술을 말한다. 요약, 기계 번역, 감정분석, QA 등 많은곳에서 응용된다. 인간의 언어는 단어간의 순서가 고려되는 시퀀셜 데이터기 때문에 딥러닝 분야에서 상대적으로 나중에 발전되어 왔지만, end to end 모델로 대체되면서 빠르게 발전되어 왔다. *시퀀셜데이터(sequential data): 순차 데이터라고도 하며, 데이터의 집합 내에서 객체들이 순서를 가진 데이터이다. 순서가 변경되면 데이터가 변경된다. *end-to-end: 어떤 문제를 해결함에 있어서 여러가지 과정들을 하나의 신경망을 통해서 재배치 하는과정. 하나의 파이프라인을 하나의 ..

NLP 2021.07.13
1