GPT로 텍스트 임베딩 검색 에이전트 만들기

IT/정보

GPT로 텍스트 임베딩 검색 에이전트 만들기

bamcong 2025. 4. 28. 20:07

728x90

안녕하세요. 오늘은 GPT를 활용하여 텍스트 임베딩 검색 에이전트를 만드는 과정을 소개해드리려고 합니다. 이를 통해 우리는 자연어 처리(NLP) 분야의 강력한 도구를 활용하여 다양한 텍스트 데이터를 쉽게 검색하고 활용할 수 있게 됩니다.

텍스트 임베딩이란?

텍스트 임베딩은 단어 또는 문장 등을 고정 길이의 벡터로 변환하는 기술입니다. 예를 들어, "사과"와 "과일"은 서로 관련이 있다고 판단되어 비슷한 벡터 값으로 매칭될 수 있습니다. 이는 마치 우리가 단어를 다루는 것과 같이, 데이터 간의 의미적 관계를 유지하면서 수치적인 형태로 변환하는 것입니다.

왜 텍스트 임베딩이 중요한가?

텍스트 임베딩은 정보 검색, 추천 시스템, 감정 분석 등 다양한 분야에서 활용됩니다. 예를 들어, 검색 엔진은 사용자 쿼리와 문서 간의 유사성을 파악하여 보다 정확한 검색 결과를 제공합니다. 이는 마치 도서관 사서가 사용자의 질문을 듣고, 관련 책을 추천해주는 것과 같습니다.

준비 사항 및 필요 라이브러리

이번 프로젝트에서 사용할 주요 라이브러리는 다음과 같습니다:

Transformers: Hugging Face의 GPT 모델을 사용할 수 있게 해주는 라이브러리.
NumPy: 벡터 계산을 효율적으로 위한 필수 라이브러리.
Faiss: 대규모 벡터 검색을 위한 Facebook AI의 라이브러리.

1. 환경 설정

먼저 필요한 라이브러리를 설치해야 합니다. 아래와 같은 명령을 통해 설치할 수 있습니다.

pip install transformers numpy faiss

2. GPT 모델 불러오기

Hugging Face의 Transformers 라이브러리를 통해 사전 훈련된 GPT 모델을 불러옵니다.

from transformers import GPT2Tokenizer, GPT2Model

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')

3. 텍스트 임베딩 생성하기

이제 불러온 모델을 통해 텍스트를 임베딩으로 변환해보겠습니다.

import torch

def get_embedding(text):
    inputs = tokenizer(text, return_tensors='pt')
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).detach().numpy()

embedding = get_embedding("안녕하세요. GPT를 활용한 텍스트 임베딩 생성입니다.")

4. 텍스트 임베딩 검색

검색을 위해 Faiss를 사용하여 대량의 텍스트 임베딩을 효율적으로 검색합니다. 여기서는 간단한 예시로 몇 가지 문장을 임베딩한 후, 가장 유사한 임베딩을 찾는 과정을 보여드리겠습니다.

import faiss

# Sample sentences
sentences = [
    "오늘 날씨가 매우 맑아요.",
    "테니스는 재미있는 스포츠입니다.",
    "프로그래밍은 복잡하지만 재미있습니다."
]

# Create embeddings
embeddings = [get_embedding(sentence) for sentence in sentences]

# Initialize Faiss index
index = faiss.IndexFlatL2(embeddings[0].shape[1])
index.add(np.array(embeddings))

# Search example
query_embedding = get_embedding("오늘 투어를 계획하고 있어요.")
D, I = index.search(query_embedding, k=1)  # Find closest
best_match = sentences[I[0][0]]

결론

이번 포스팅에서는 GPT 모델을 활용한 텍스트 임베딩 검색 에이전트를 만드는 방법에 대해 다뤄보았습니다. 이는 자연어 처리의 기본적인 원리인 유사도 측정을 통해 기술과 데이터 간의 상호작용을 보다 원활하게 만들어 줍니다. 다양한 활용이 가능하니, 여러분도 자신만의 프로젝트에 응용해보시길 바랍니다.

감사합니다!

728x90

저작자표시 (새창열림)