티스토리 뷰

✔️ Embedding이란?

임베딩은 기계가 이해할 수 있는 수치적 형태인 백터로 변환하는 과정이다.

임베딩은 RAG(Retrieval-Augmented Generation) 시스템의 세 번째 단계이다.

Document Load ➡️ Text Splitter ➡️ Embedding 이다.

문서 분할 단계에서 생성된 문서 단위를 기계가 이해할 수 있는 수치적 형태(백터)로 변환하는 과정이다.

임베딩 과정은 RAG 시스템의 핵심 요소 중 하나이다. 문서의 의미를 벡터(숫자의 배열) 형태로 표현함으로써 사용자가 입력한 질문(Query)에 대해 DB에 저장된 문서 조각(청크, Chunk)을 검색하고 유사도를 계산하는 데 활용된다.

 

주요 활용 사례

의미 검색 (Semantic Search)

  • 백터 표현을 활용하여 의미적으로 유사한 텍스트를 검색하는 방식
  • 사용자가 입력한 쿼리에 대해 가장 관련성이 높은 문서나 정보를 효과적으로 찾아낼 수 있음

 

문서 분류 (Document Classification)

  • 임베딩된 텍스트 벡터를 사용하여 문서를 특정 카테고리나 주제로 분류하는 작업
  • 뉴스 분류, 고객 피드백 분석 등 다양한 NLP 응용 가능 (자연어 처리)

 

텍스트 유사도 계산 (Text Similarity Calculation)

  • 두 개의 텍스트 벡터 사이의 거리를 계산하여 유사도를 평가
  • 코사인 유사도(Cosine Similarity)를 활용하여 두 문장이 얼마나 비슷한지 수치화할 수 있음
    • 아래 사진을 보면 v2와 v1이 있는데, 그 거리를 계산하지 않고 cos 각도를 계산하는 거다. 각이 작을수록 유사도가 높다고 할 수 있다.

 

 

임베딩 모델 제공자

- OpenAI

GPT 계열 모델을 기반으로 텍스트 임베딩을 생성할 수 있는 API 제공

대표적인 임베딩 모델 : text-embedding-3-small, text-embedding-ada-002

 

- Hugging Face

Transformers 라이브러리를 통해 다양한 오픈소스 임베딩 모델 제공

대표적인 모델 : sentence-transformers 계열

 

- Google

Gemini, Gemma 등의 언어 모델에 적용되는 임베딩 모델 제공

Google의 Vertex AI에서도 다양한 임베딩 모델을 지원한다.

 

임베딩 메소드

- embed_documents

문서 객체의 집합을 입력으로 받아 각 문서를 벡터 공간의 임베딩 하는 메소드이다.

대량의 텍스트 데이터를 배치(batch) 단위로 처리할 때 유용하다.

 

- embed_query

단일 텍스트 쿼리를 입력으로 받아, 이를 벡터 공간의 임베딩 하는 메소드

사용자의 검색 쿼리를 벡터화하여 문서 집합 내에서 가장 관련성이 높은 내용을 찾아내는 데 활용한다.

 

 

✔️ Embedding 종류 디테일 설명

OpenAIEmbeddings VS HuggingFaceEmbeddings

 

✔️ OpenAIEmbeddings이란?

OpenAI에서 제공하는 텍스트 임베딩 모델을 활용하여 문장이나 단락을 벡터 형태로 변환하는 기능을 수행한다.

의미적으로 유사한 텍스트를 찾거나, 검색 시스템, 문서 분류 등에 활용할 수 있다.

 

주요 기능

- 텍스트를 벡터(숫자의 배열)로 변환

자연어 데이터를 머신러닝 모델이 이해할 수 있는 형태로 변환한다.

텍스트 간의 의미적 유사도를 비교하는 데 활용한다.

 

- 의미 검색 (Semantic Search)

사용자의 쿼리와 데이터베이스 내 문서 간 유사도를 계산하여 관련성이 높은 결과를 찾는다.

 

- 문서 분류 및 클러스터링

벡터화된 텍스트 데이터를 기반으로 특정 카테고리로 분류하거나 그룹화를 할 수 있다.

 

❓클러스터링이란

클러스터링(clustering)은 벡터화된(임베딩) 텍스트 데이터를 기반으로 비슷한 특성을 가진 문서나 데이터를 자동으로 그룹(cluster)으로 묶는 비지도 학습 방법이다. 임베딩 벡터 공간에서 서로 가까운 위치에 있을 때 비슷하다고 한다.

 

- 유사도 계산

코사인 유사도(Cos) 등을 사용하여 두 문장 또는 문서간의 의미적 유사성을 평가한다.

 

주요 함수

- embed_query(text: str) -> List[float]

단일 쿼리(문장)를 벡터로 변환한다.

ex. 검색 시스템에서 사용자 쿼리를 벡터로 변환 -> 문서와 비교

 

- embed_documents(texts: List[str]) -> List[List[float]]

여러 개의 문서를 벡터로 변환한다.

ex. 대량의 문서를 미리 벡터화하여 db에 저장한다. -> 검색 시 비교한다.

 

- dimensions (임베딩 차원 설정)

기본적으로 모델에 따라 임베딩 차원이 정해져 있지만, 일부 모델은 dimensions 매개변수를 통해 설정 가능하다.

ex. text-embedding-3m-small 모델의 기본 차원은 1536이다. 하지만 특정 크기로 조정할 수 있다.

 

❓여기서 기본 차원이 1536이라는 건

기본 차원 == 임베딩 벡터의 길 (벡터 배열의 숫자 개수)

해당 모델이 하나의 텍스트(문장)를 입력받아 1536개의 실수(float)로 이루어진 벡터로 변환한다는 뜻이다. 

벡터의 차원이 높을수록 더 미세하고 다양한 의미의 정보를 담을 수 있다. 하지만, 계산량과 저장공간도 커지기 때문에 주의할 필요가 있다.

 

 

✔️ HuggingFaceEmbeddings이란?

HuggingFaceEmbeddings는 Hugging Face에서 제공하는 사전 학습된 언어 모델을 사용하여 텍스트를 벡터(Embedding)로 변환하는 도구입니다. 주로 자연어 검색, 문서 유사도 분석, 의미 기반 검색 등의 작업에 활용됩니다.

 

주요 기능 및 역할

  • 텍스트를 벡터로 변환 : 기계가 이해할 수 있는 수치적 표현 생성
  • 문서 검색 및 유사도 분석 : 벡터 간 거리를 계산하여 의미적 유사성 판단
  • Hugging Face 모델 사용 : sentence-transformers 기반 다양한 모델 지원
  • 로컬 또는 GPU에서 실행 가능 : OpenAI API 없이도 실행 가능

 

다양한 모델 비교

  • all-MiniLM-L6-v2: 소형, 빠른 속도 (384차원)
  • all-mpnet-base-v2: 중형, 균형잡힌 성능 (768차원)
  • paraphrase-multilingual-MiniLM-L12-v2: 다국어 지원

 

한국어 처리 분석

  • 한국어 텍스트별 벡터 특성
  • 벡터 크기, 평균, 표준편차 분석

주요 함수

- embed_documents(texts:List[str]), embed_query(text: str)

- from_pretrained(model_name: str)

특정 사전 학습된 모델을 로드한다.

- batch_encode_plus(texts: List[str])

텍스트를 한 번에 여러 개 변환하여 배치 처리한다.

 

비교

 

반응형
LIST
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함
반응형