멀티모달 RAG 파이프라인 구축 및 Col-Pali 모델 소개

이 비디오에서는 기존 RAG(Retrieval-Augmented Generation) 시스템의 한계를 극복하고 멀티모달 데이터를 처리할 수 있는 RAG 파이프라인 구축 방법을 소개합니다. 특히, 테이블, 차트, 복잡한 이미지와 같은 다양한 데이터 형식을 효과적으로 처리하는 데 초점을 맞추고 있습니다.

기존 RAG 시스템의 문제점

기존 RAG 시스템은 다음과 같은 문제점을 가지고 있습니다.

  • 테이블: 테이블 레이아웃을 정확히 이해하지 못하고 텍스트를 추출하여 LLM이 정확한 답변을 제공하는 데 어려움이 있습니다.
  • 차트: 차트와 텍스트가 결합된 경우, OCR을 통한 단순 텍스트 추출만으로는 LLM이 차트 내 텍스트의 의미를 파악하기 어렵습니다.
  • 복잡한 이미지: 복잡한 이미지에서 의미 있는 텍스트를 추출하는 것이 매우 어렵습니다.

이러한 문제점을 해결하기 위해 레이아웃 감지(layout detection) 기술이 사용됩니다. 레이아웃 감지는 문서 내 각 개체의 구조를 이해하는 데 도움을 주지만, 개체 간 관계나 맥락을 종합적으로 분석하기에는 한계가 있습니다.

이미지 정보 추출 방법

이미지 정보를 추출하기 위해 두 가지 방법이 소개됩니다.

  1. 첫 번째 방법: 이미지에서 텍스트를 추출하고, 비전 LLM을 사용하여 이미지에 대한 설명을 생성하여 텍스트 형태로 저장합니다. 이 방법은 비전 LLM 호출 비용이 높고, 이미지 설명이 불완전할 수 있다는 단점이 있습니다.
  2. 두 번째 방법: Open CLIP과 같은 멀티모달 임베딩 모델을 사용하여 이미지를 직접 임베딩합니다. 하지만 이 방법은 임베딩 모델의 성능에 크게 의존하며, 특히 복잡한 구조를 가진 차트나 표의 경우 정보를 제대로 임베딩하지 못하는 단점이 있습니다.

Col-Pali 임베딩 모델

새로운 해결책으로 Col-Pali 임베딩 모델이 소개됩니다. Col-Pali는 ColBERT와 Pali-Emma 모델을 결합한 모델입니다.

  • Pali-Emma: 구글에서 개발한 비전 LLM으로, 이미지를 텍스트 형태로 변환하는 역할을 합니다.
  • ColBERT: 토큰 단위 임베딩을 사용하여 문장 단위 임베딩보다 더 세밀한 검색이 가능하도록 합니다.

Col-Pali는 이미지를 입력으로 받아 Pali-Emma를 통해 텍스트로 변환하고, ColBERT를 통해 토큰 단위로 임베딩합니다. 이를 통해 기존 방법보다 더 정확하고 세밀한 검색이 가능합니다.

Lagha2 라이브러리

Col-Pali 모델을 쉽게 활용할 수 있도록 Lagha2와 brd 파이썬 라이브러리가 소개됩니다. 이러한 라이브러리를 사용하면 PDF를 이미지로 변환, Col-Pali 임베딩, 벡터 스토어 저장, 그리고 검색된 이미지 기반으로 멀티모달 LLM이 답변을 생성하는 RAG 파이프라인을 간편하게 구축할 수 있습니다.

RAG 파이프라인 작동 방식

  1. PDF 문서를 이미지로 변환합니다.
  2. 변환된 이미지를 Col-Pali 모델을 사용하여 임베딩합니다.
  3. 임베딩된 벡터를 벡터 스토어에 저장합니다.
  4. 사용자의 질문을 받아 질문과 유사한 이미지를 벡터 스토어에서 검색합니다.
  5. 검색된 이미지를 멀티모달 LLM으로 보내 답변을 생성합니다.

이 파이프라인은 PPT 파일과 같은 다양한 형식의 문서도 처리할 수 있습니다.

기존 RAG 파이프라인과의 비교

기존 텍스트 기반 RAG 파이프라인과 비교했을 때, Col-Pali를 활용한 멀티모달 RAG 파이프라인은 이미지 내 정보를 정확하게 추출하여 답변을 제공할 수 있습니다. 기존 텍스트 기반 RAG는 이미지 정보를 제대로 이해하지 못하고 자체적인 지식으로 답변을 생성할 가능성이 있습니다.

Col-Pali 모델의 한계

Col-Pali 모델은 효과적이지만, 특히 복잡한 질문이나 한국어와 같이 특정 언어에 최적화되지 않은 경우 정확도가 떨어질 수 있습니다. 예를 들어, 여러 번 테스트한 결과 가끔 이상한 이미지를 불러와 답변하는 모습을 보이기도 합니다.

따라서, 한국어와 같은 특정 언어에 최적화된 VLM과 ColBERT를 결합한 임베딩 모델이 개발된다면, 더욱 효과적인 RAG 파이프라인을 구축할 수 있을 것입니다.