1. 전체 아키텍처(기본 RAG)

문서 로딩(PDF/Excel)
청킹(Chunking): 문서를 의미 있는 조각으로 분할
임베딩 생성(OpenAI Embeddings)
벡터DB 저장(Vector Store upsert)
질의 시 검색(Retrieval): 질문 임베딩 → Top-K 유사 chunk 검색
답변 생성(Generation): 검색 결과를 컨텍스트로 LLM 호출(Responses API 등)
출처 포함 응답: 파일명/페이지/시트 등 메타데이터를 근거로 같이 출력

2. 단계별 “해야 하는 일” + 라이브러리

2.1 문서 로딩 (Document Loaders)

목적

PDF/Excel을 LangChain Document 형태로 통일해서 다루기.

라이브러리(대표)

langchain_community.document_loaders (각종 Loader 묶음)
PDF:
- pypdf (PDF 텍스트 추출 계열에서 자주 사용)
Excel:
- openpyxl (xlsx 읽기)
- (옵션) pandas (표를 텍스트로 변환하기 편함)

LangChain 쪽에서 “Document Loader”라는 개념으로 파일을 읽어 Document 리스트로 만드는 흐름이 기본이야. api.python.langchain.com

2.2 청킹(Chunking) = Text Splitter