실무에서 활용되는 자연어 처리 기법

1. 자연어 처리 기법의 개요

자연어 처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해하고 처리할 수 있도록 하는 기술 분야입니다. 주어진 텍스트 데이터를 이해하고 분석하여 의미 추론, 문장 분석, 자동 번역 등 다양한 작업을 수행할 수 있습니다.

전통적인 NLP 접근 방법

전통적으로 NLP는 규칙 기반(Rule-based) 방식과 통계 기반(Statistical-based) 방식으로 접근되었습니다. 규칙 기반 방식은 문법 규칙과 어휘 정보를 사용하여 언어의 구조를 이해하는 방식입니다. 통계 기반 방식은 대량의 텍스트 데이터를 학습하여 언어의 통계적 특성을 활용하는 방식입니다.

신경망 기반 NLP 접근 방법

최근에는 신경망 기반의 딥러닝 방법이 NLP 분야에서 많은 성과를 이뤄내고 있습니다. 특히 순환 신경망(RNN)과 변형 모델인 장단기 메모리(LSTM)와 게이트 순환 유닛(GRU)은 시퀀스 데이터 처리에 탁월한 성능을 보입니다.

자연어 처리의 주요 응용 분야

자연어 처리는 다양한 응용 분야에서 활용되고 있습니다. 대표적인 응용 분야로는 기계 번역, 감성 분석, 질의 응답 시스템, 텍스트 분류 및 군집화, 자동 요약 등이 있습니다.


# 예시 코드
import nltk

# 토큰화
text = "Natural Language Processing is a challenging and exciting field."
tokens = nltk.word_tokenize(text)
print(tokens)

# 텍스트 정규화
normalized_text = [word.lower() for word in tokens]
print(normalized_text)

# 문장 분리
sentences = nltk.sent_tokenize(text)
print(sentences)

2. 단어 임베딩 기법

단어 임베딩은 단어를 수치화된 벡터로 표현하는 기법입니다. 단어 임베딩은 단어 간의 의미적 관계를 반영하며, 자연어 처리 작업에서 중요한 역할을 합니다.

2.1 Word2Vec

Word2Vec은 단어의 분산 표현(distributed representation)을 학습하기 위한 기법입니다. 단어의 주변 단어(context words)를 활용하여 단어의 의미를 파악하는 방법으로 CBOW(Continuous Bag of Words)와 Skip-gram 두 가지 모델로 구성됩니다. Word2Vec은 단어 간 유사도, 단어 간 의미적 관계 등을 계산할 수 있어 자연어 처리에서 많이 사용됩니다.

2.2 GloVe

GloVe(Global Vectors for Word Representation)는 단어의 동시 등장 행렬(co-occurrence matrix)을 기반으로 단어를 벡터로 표현하는 기법입니다. 동시 등장 행렬은 단어들 사이의 동시 등장 빈도를 계산하여 단어 간의 관계를 파악하는데 활용됩니다. GloVe는 Word2Vec과 비슷한 원리로 작동하지만, 선형 방정식을 활용하여 더욱 정교한 임베딩을 학습할 수 있습니다.

2.3 FastText

FastText는 단어를 하위 단어(subword)의 집합으로 다루는 기법입니다. 단어를 n-gram으로 나눈 후 각각의 하위 단어의 임베딩 벡터를 구하여 결합함으로써 단어의 의미를 표현합니다. FastText는 특히 희귀 단어나 오타에 강건한 임베딩을 제공하고, 단어 이외의 토큰(예: OOV 토큰)을 다룰 수 있는 장점이 있습니다.


# 예시 코드 - Word2Vec
from gensim.models import Word2Vec
sentences = [["I", "love", "natural", "language", "processing"], 
             ["Word2Vec", "is", "a", "popular", "word", "embedding", "model"]]
model = Word2Vec(sentences, size=100, window=5, min_count=1, workers=4)
word_embedding = model.wv["language"]
print(word_embedding)

# 예시 코드 - GloVe
from gensim.scripts.glove2word2vec import glove2word2vec
from gensim.models import KeyedVectors
glove_file = 'path/to/glove/file.txt'
glove_model = glove2word2vec(glove_file, 'glove_word2vec.txt')
glove_embedding = KeyedVectors.load_word2vec_format('glove_word2vec.txt')
print(glove_embedding['cat'])

# 예시 코드 - FastText
from gensim.models import FastText
sentences = [['I', 'love', 'natural', 'language', 'processing'], 
             ['FastText', 'is', 'a', 'word', 'embedding', 'model']]
model = FastText(sentences, size=100, window=5, min_count=1, workers=4, sg=1)
fasttext_embedding = model.wv["language"]
print(fasttext_embedding)

3. 텍스트 전처리 기법

텍스트 전처리는 자연어 처리 작업에 앞서 텍스트 데이터를 사전에 정제하고 가공하는 과정입니다. 주요 텍스트 전처리 기법으로는 토큰화, 불용어 처리, 텍스트 정규화, 문장 분리 등이 있습니다.

3.1 토큰화 (Tokenization)

토큰화는 텍스트를 작은 단위로 나누는 과정입니다. 문장을 단어로 분리하는 단어 토큰화, 문장을 의미 단위로 분리하는 의미 토큰화 등 다양한 방법으로 수행될 수 있습니다.

3.2 불용어 처리 (Stop Word Removal)

불용어는 문장에서 자주 등장하지만 문맥적으로 중요하지 않은 단어입니다. 예를 들어 “the”, “a”, “is” 등이 불용어에 해당합니다. 불용어 처리는 이러한 단어들을 제거하여 처리하는 과정입니다.

3.3 텍스트 정규화 (Text Normalization)

텍스트 정규화는 텍스트 데이터를 일관성 있게 처리하는 과정입니다. 예를 들어 단어들을 소문자로 변환, 특수 문자 제거, 단어의 원형으로 변환하는 등의 작업이 이에 해당합니다.

3.4 문장 분리 (Sentence Segmentation)

문장 분리는 텍스트를 문장 단위로 분리하는 과정입니다. 대부분의 자연어 처리 작업은 문장 단위로 처리되기 때문에, 문장 분리는 중요한 전처리 단계입니다.


# 예시 코드 - 문장 분리
import nltk

text = "Natural Language Processing is a challenging and exciting field. It involves the ability to understand, analyze, and generate human language."
sentences = nltk.sent_tokenize(text)
print(sentences)

# 예시 코드 - 토큰화
from nltk.tokenize import word_tokenize

text = "Natural Language Processing is a challenging and exciting field."
tokens = word_tokenize(text)
print(tokens)

# 예시 코드 - 불용어 처리
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)

# 예시 코드 - 텍스트 정규화
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
normalized_tokens = [lemmatizer.lemmatize(word.lower()) for word in filtered_tokens]
print(normalized_tokens)

4. 문서 벡터화 기법

문서 벡터화는 텍스트 데이터를 수치화된 벡터로 표현하는 기법입니다. 이를 통해 문서 간 유사도를 계산하거나 자연어 처리 작업을 수행할 수 있습니다. 주요 문서 벡터화 기법으로는 TF-IDF, 문서 임베딩, 문서 유사도 측정 등이 있습니다.

4.1 TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF는 단어의 중요도를 나타내는 특징 벡터를 계산하는 방법입니다. TF는 단어의 빈도를, IDF는 역 문서 빈도를 계산하여 인코딩된 벡터를 생성합니다. 이를 통해 문서에서 중요한 단어를 구별할 수 있습니다.

4.2 문서 임베딩 (Document Embedding)

문서 임베딩은 문서를 벡터로 표현하는 기법으로, 단어 임베딩(Word Embedding)을 문서 수준으로 확장한 것입니다. 주로 단어 임베딩 기법을 활용하여 문서의 단어들을 벡터로 표현하고, 이를 조합하여 문서 벡터를 생성합니다.

4.3 문서 유사도 측정 (Document Similarity)

문서 유사도 측정은 두 개의 문서 사이의 유사도를 계산하는 기법입니다. 문서 벡터화를 통해 각 문서를 벡터로 표현한 후 벡터 간의 유사도를 계산합니다. 일반적으로는 코사인 유사도(Cosine Similarity)가 많이 사용됩니다.


# 예시 코드 - TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

documents = ["I love natural language processing.",
             "Machine learning is exciting.",
             "Natural language processing and machine learning are important in AI field."]
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)
print(tfidf_matrix.toarray())

# 예시 코드 - 문서 임베딩 (Word2Vec)
from gensim.models import Word2Vec
sentences = [['I', 'love', 'natural', 'language', 'processing'],
             ['Machine', 'learning', 'is', 'exciting'],
             ['Natural', 'language', 'processing', 'and', 'machine', 'learning', 'are', 'important', 'in', 'AI', 'field']]
model = Word2Vec(sentences, size=100, window=5, min_count=1, workers=4)
doc_embedding1 = model.infer_vector(sentences[0])
doc_embedding2 = model.infer_vector(sentences[1])
similarity = model.wv.cosine_similarities(doc_embedding1, doc_embedding2)
print(similarity)

# 예시 코드 - 문서 유사도 측정 (Cosine Similarity)
from sklearn.metrics.pairwise import cosine_similarity

doc_similarity = cosine_similarity(tfidf_matrix)
print(doc_similarity)

5. 토픽 모델링 기법

토픽 모델링은 텍스트 데이터에서 주제를 추출하고 이를 토픽으로 모델링하는 기법입니다. 토픽 모델링은 대규모의 텍스트 데이터에서 숨겨진 구조를 발견할 수 있으며, 문서 요약, 정보 검색, 문서 군집화 등 다양한 응용분야에 사용됩니다. 주요 토픽 모델링 기법으로는 잠재 디리클레 할당(LDA)이 있습니다.

5.1 잠재 디리클레 할당 (Latent Dirichlet Allocation, LDA)

잠재 디리클레 할당(LDA)은 문서 집합 속의 토픽을 찾고, 각 문서에서 토픽이 얼마나 많이 등장하는지를 기반으로 토픽을 할당하는 확률적 생성 모델입니다. LDA는 단어의 분포 패턴을 기반으로 토픽을 추론합니다.

5.2 주제 모델링의 응용 – 문서 군집화 (Document Clustering)

문서 군집화는 비슷한 특성을 가진 문서들을 군집으로 묶는 작업입니다. 주제 모델링 기법인 LDA는 문서 내에 숨겨진 주제를 추론하여 문서들을 토픽으로 구분하고, 이를 활용하여 문서 군집화를 수행할 수 있습니다.


# 예시 코드 - 문서 군집화 (LDA)
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# 20개의 주제를 가지는 뉴스그룹 데이터셋 로드
data = fetch_20newsgroups(subset='all', random_state=42)
documents = data.data

# TF-IDF 벡터화
tfidf = TfidfVectorizer(max_features=1000)
tfidf_matrix = tfidf.fit_transform(documents)

# LDA 모델 훈련
lda = LatentDirichletAllocation(n_components=20, random_state=42)
lda.fit(tfidf_matrix)

# 문서의 토픽 할당
doc_topic_dist = lda.transform(tfidf_matrix)
print(doc_topic_dist)

# 토픽별 상위 단어 출력
feature_names = tfidf.get_feature_names()
for topic_idx, topic in enumerate(lda.components_):
    top_features = [feature_names[i] for i in topic.argsort()[:-11:-1]]
    print(f"Topic #{topic_idx+1}: {', '.join(top_features)}")

6. 감성 분석 기법

감성 분석은 텍스트 데이터에서 주관적인 감정과 태도를 분석하는 기법입니다. 주로 긍정, 부정, 중립과 같은 감성을 예측하거나 추출하는 작업에 사용됩니다. 감성 분석 기법으로는 지도 학습 기반과 비지도 학습 기반 기법이 있습니다.

6.1 지도 학습 기반 감성 분석

지도 학습 기반 감성 분석은 사전에 레이블된 문서 데이터를 이용하여 감성을 예측하는 분류 모델을 훈련하는 방법입니다. 주로 텍스트 분류 알고리즘인 나이브 베이즈, 서포트 벡터 머신, 딥러닝 모델 등을 사용합니다.

6.2 비지도 학습 기반 감성 분석

비지도 학습 기반 감성 분석은 레이블이 없는 문서 데이터에서 감성을 추출하는 방법입니다. 주로 감성 사전과 같은 자원을 사용하여 문서에 포함된 단어의 감성 점수를 계산하고, 이를 토대로 문서 전체의 감성을 판단합니다. 대표적인 비지도 학습 기반 감성 분석 기법으로는 감성 사전 기반 접근법이 있습니다.

6.3 감성 분석의 활용 예시

감성 분석은 다양한 분야에서 활용될 수 있습니다. 예를 들어, 제품 리뷰를 분석하여 제품의 긍정적인 요소와 부정적인 요소를 파악하거나, 소셜 미디어 데이터를 분석하여 대중의 반응이나 감성을 파악할 수 있습니다. 또한, 마케팅 분야에서는 제품에 대한 소비자의 감성을 파악하여 시장 조사나 마케팅 전략 수립에 활용할 수 있습니다.


# 예시 코드 - 지도 학습 기반 감성 분석 (사전 기반)
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 텍스트 데이터와 레이블 데이터 준비
texts = ["This movie is great!",
         "I really liked the acting in the movie.",
         "The plot was confusing and poorly executed.",
         "Waste of time, worst movie ever!"]
labels = [1, 1, 0, 0]

# 텍스트 데이터를 벡터화
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# 학습 데이터와 테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# 로지스틱 회귀 모델 훈련
model = LogisticRegression()
model.fit(X_train, y_train)

# 테스트 데이터 예측 및 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)


# 예시 코드 - 비지도 학습 기반 감성 분석 (VADER 감성분석기)
from nltk.sentiment import SentimentIntensityAnalyzer

# 문장 데이터
sentences = ["I love this product!", 
             "The customer service was terrible.", 
             "I feel neutral about this company."]
             
# VADER 감성분석기로 감성 점수 계산
analyzer = SentimentIntensityAnalyzer()
for sentence in sentences:
    sentiment = analyzer.polarity_scores(sentence)
    print(f"Sentence: {sentence}")
    print(f"Sentiment Score: {sentiment['compound']}")
    print()

7. 시퀀스 레이블링 기법

시퀀스 레이블링은 문장이나 문서와 같은 시퀀스 데이터의 각 요소에 레이블을 할당하는 기법입니다. 주요 시퀀스 레이블링 기법으로는 개체명 인식(Named Entity Recognition, NER), 의미 역할 레이블링(Semantic Role Labeling, SRL), 문장 구조 파싱(Parsing) 등이 있습니다.

7.1 개체명 인식 (Named Entity Recognition, NER)

개체명 인식은 텍스트 데이터에서 주어진 문맥 속에서 특정한 의미를 갖는 개체들을 인식하고 분류하는 작업입니다. 개체명 인식은 인물, 장소, 날짜, 기관 등과 같은 중요한 개체를 식별하는 데 사용됩니다.

7.2 의미 역할 레이블링 (Semantic Role Labeling, SRL)

의미 역할 레이블링은 문장에서 각 단어가 문장의 의미 구조에서 어떤 역할을 수행하는지를 태깅하는 작업입니다. 예를 들어, 동사가 어떤 동작을 수행하는지, 주어가 누구인지, 목적어가 무엇인지 등을 식별합니다.

7.3 문장 구조 파싱 (Parsing)

문장 구조 파싱은 문장의 구조를 분석하여 각 구성 요소의 구문 구조 및 관계를 파악하는 작업입니다. 일반적으로 문장을 트리 구조로 표현하여 단어들 간의 문법적인 관계를 나타냅니다. 문장 구조 파싱은 문장의 구성 요소를 식별하고 문장의 의미를 이해하는 데 사용됩니다.


# 예시 코드 - 문장 구조 파싱 (Stanford CoreNLP)

from stanfordcorenlp import StanfordCoreNLP

# Stanford CoreNLP 서버 실행
nlp = StanfordCoreNLP('stanford-corenlp-full-2020-11-17')

# 문장 파싱
sentence = "The cat is sitting on the mat."
parse_tree = nlp.parse(sentence)
print(parse_tree)

# 의미 역할 레이블링
roles = nlp.srl(sentence)
print(roles)

# 종속 구문 분석
dep_tree = nlp.dependency_parse(sentence)
print(dep_tree)

# Stanford CoreNLP 서버 종료
nlp.close()

8. 기계 번역 기법

기계 번역은 한 언어로 작성된 텍스트를 다른 언어로 자동으로 번역하는 기술입니다. 주요 기계 번역 기법으로는 통계적 기계 번역(Statistical Machine Translation, SMT)과 신경망 기계 번역(Neural Machine Translation, NMT)이 있습니다.

8.1 통계적 기계 번역 (Statistical Machine Translation, SMT)

통계적 기계 번역은 대규모 병렬 말뭉치(원문과 번역문이 포함된 말뭉치)를 기반으로 번역 모델을 훈련하는 기법입니다. 번역 모델은 입력 문장과 출력 문장 간의 확률을 모델링하고, 번역 후보들 중에 확률이 가장 높은 문장을 선택하여 번역 결과를 생성합니다.

8.2 신경망 기계 번역 (Neural Machine Translation, NMT)

신경망 기계 번역은 인공 신경망을 이용하여 번역 모델을 구축하는 기법입니다. 주로 장단기 메모리(Long Short-Term Memory, LSTM)나 변형된 어텐션 메커니즘(Attention Mechanism)을 사용하여 입력 문장과 출력 문장 간의 매핑 관계를 학습합니다. 신경망 기계 번역은 번역의 전체적인 문맥을 파악하여 보다 자연스러운 번역 결과를 얻는 데에 효과적입니다.

8.3 번역 품질 평가 (Translation Quality Evaluation)

번역 품질 평가는 기계 번역 시스템의 번역 결과를 평가하여 품질을 측정하는 작업입니다. 평가는 주로 사람이 직접 평가하거나, 자동 평가 메트릭(Metrics)을 활용하여 수행됩니다. 대표적인 번역 품질 평가 메트릭으로는 BLEU(Bilingual Evaluation Understudy)가 있으며, 이 외에도 ROUGE, METEOR 등이 사용됩니다.


# 예시 코드 - 번역 품질 평가 (BLEU)

from nltk.translate.bleu_score import corpus_bleu

# 참조 번역문과 모델 생성 번역문
references = [['I', 'like', 'cats']]
candidates = [['I', 'love', 'cats']]

# BLEU 점수 계산
score = corpus_bleu(references, candidates)
print("BLEU Score:", score)

9. 자동 질의 응답 기법

자동 질의 응답은 사용자의 질문에 대해 자동으로 적절한 답변을 생성하는 기술입니다. 주요 자동 질의 응답 기법으로는 질문 분류(Question Classification)와 질의 응답 모델 구현이 있습니다.

9.1 질문 분류 (Question Classification)

질문 분류는 주어진 질문을 특정 범주로 분류하는 작업입니다. 주어진 질문의 의도나 종류에 따라서 다양한 범주로 분류할 수 있으며, 이는 질의 응답 시스템에서 특정 도메인의 지식을 활용하여 정확한 답변을 생성하는 데에 도움을 줍니다.

9.2 질의 응답 모델 구현

질의 응답 모델은 주어진 질문에 대해 적절한 답변을 생성하는 모델입니다. 주로 자연어 처리 기법과 기계 학습 알고리즘을 사용하여 질문과 답변 사이의 매핑 관계를 학습합니다. 대표적인 질의 응답 모델로는 RNN 기반의 Seq2Seq 모델, Transformer 모델, BERT 모델 등이 있습니다.

9.3 질의 응답 시스템 평가 (Question Answering System Evaluation)

질의 응답 시스템 평가는 자동 질의 응답 시스템의 성능을 평가하는 작업입니다. 평가는 주로 인간 평가(사람이 질문에 대한 답변을 평가) 또는 사전 구축된 테스트 데이터셋을 활용하여 모델의 정확도, 재현율, F1-score 등을 측정합니다.


# 예시 코드 - 질의 응답 (BERT)

from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch

# 질문과 문맥 생성
question = "What is the capital of France?"
context = "Paris is the capital and most populous city of France."

# BERT 모델 및 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForQuestionAnswering.from_pretrained("bert-base-uncased")

# 입력 문장 토큰화
inputs = tokenizer.encode_plus(question, context, add_special_tokens=True, return_tensors="pt")

# 질의 응답 수행
start_scores, end_scores = model(**inputs)

# 최적의 답변 선택
start_index = torch.argmax(start_scores)
end_index = torch.argmax(end_scores)
answer_tokens = inputs["input_ids"][0][start_index:end_index+1]
answer = tokenizer.decode(answer_tokens)

# 답변 출력
print("Q: " + question)
print("A: " + answer)

10. 자연어 생성 기법

자연어 생성은 인간의 언어를 모델링하고 새로운 텍스트를 생성하는 기술입니다. 주요 자연어 생성 기법으로는 언어 모델(Language Model)과 텍스트 생성 방법(Text Generation Techniques)이 있습니다.

10.1 언어 모델 (Language Model)

언어 모델은 문장 또는 문서의 확률을 모델링하는 통계적 모델입니다. 언어 모델은 주어진 이전 단어들로부터 다음 단어를 예측하는데 사용됩니다. 대표적인 언어 모델로는 N-gram 모델, RNN 기반의 언어 모델, Transformer 모델 등이 있습니다.

10.2 텍스트 생성 방법 (Text Generation Techniques)

텍스트 생성 방법은 언어 모델을 이용하여 새로운 텍스트를 생성하는 기법입니다. 언어 모델의 예측력을 활용하여 다양한 방법으로 텍스트를 생성할 수 있습니다. 일반적인 텍스트 생성 방법으로는 Greedy Decoding, Beam Search, 확률적 샘플링 등이 있으며, 이를 결합하여 다양한 창의적인 텍스트를 생성할 수 있습니다.

10.3 자동 요약 (Automatic Summarization)

자동 요약은 긴 텍스트를 간단하고 요약된 형태로 자동으로 변환하는 기술입니다. 주어진 텍스트에서 중요한 정보를 추출하거나 텍스트의 핵심을 파악하여 요약을 생성하는 방법이 사용됩니다. 자동 요약은 텍스트의 길이를 줄이고 핵심 내용을 간결하게 전달하여 효율적인 정보 전달을 돕습니다.


# 예시 코드 - 자동 요약 (Gensim)

from gensim.summarization import summarize

# 원문
text = "Automatic summarization is the process of reducing a text document with a computer program in order to create a summary that retains the most important points of the original document. Extractive methods select a subset of existing words, phrases, or sentences in the original text to form the summary. Abstractive methods build an internal semantic representation of the original text and then use this representation to generate a summary that is closer to what a human might express. Automatic text summarization is part of the field of Natural Language Processing (NLP) and has many applications, such as news summarization to generate headlines or article summaries, email summarization, meeting summarization, and more."

# 자동 요약 생성
summary = summarize(text)

# 요약 출력
print("Original Text:\n", text, "\n")
print("Summary:\n", summary)