전체 글

과거의 경험은 모두 미래를 위한 exp란 뜻으로 과거의 경험을 통해 발전하자는 학구적인 의미를 담은 kalpastudio의 plo입니다.

2023.12.28· Computer Theory/LLM

Text embeddings: 텍스트를 임베디드 숫자로 변경, 비 정형 data를 수치상으로 변경해서 vector 그래프로 표시가 가능 구분 기업명 모델명 장단점 유료 임베딩 모델 OpenAI Cohere Amazon text-embedding-ada-002 embed-multilingual-v2.0- titan-embed-text-v1 - 사용하기 편리하지만 비용 발생 - API 통신 이용하므로 보안 우려 - 한국어 포함 많은 언어 임베딩 지원 - GPU 없이도 빠른 임베딩 로컬 임베딩 모델 HuggingFace bge-large-en-v1.5 multilingual-e5-large instructor-xl ko-sbert-nli KoSimCSE-roberta-multitask - 무료지만 다소 어려운..

랭체인의 Retrival-text splitters

2023.12.28· Computer Theory/LLM

Text Splitter: 토큰 제한이 있는 LLM이 여러 문장을 참고해 답변할 수 있도록 문서를 분할하는 역할 Text Splitter 종류 1) CharacterTextSplitter: 구분자 1개 기준으로 분할, max_token 제한을 지키지 못하는 경우가 발생할 수 있음(ex. 문단 1개) 2)RecursiveCharacterTextSplitter: 구분자 여러개로 분할, max_token 제한을 못지키면 다음 구분자로 나누어서 chunk가 max_token을 안넘도록 수정함. from langchain.text_splitter import CharacterTextSplitter text_splitter = CharacterTextSplitter( seperator = "\n\n", //제한자 ..

랭체인의 핵심

2023.12.28· Computer Theory/LLM

RAG(Retrival Augmented Genearation): 외부 데이터를 참조하여 LLM이 답변할 수 있도록 해주는 프레임워크 랭체인의 Retrieval은 RAG의 대부분의 구성 요소를 아우르며, 구성 요소 하나하나가 RAG의 품질을 좌우 !pip install langchain unstructured pypdf pdf2image docx2txt pdfminer from google.colab import drive drive.mount('/content/drive') 1. Document Loaders - Document Loader는 다양한 형식의 문서를 불러오고 이를 Langchain에 결합하기 쉬운 텍스트 형태로 변환하는 기능을 함. 사용자는 txt, pdf, word, ppt, xlsx,..

티스토리툴바