All

1. 건강 - 그동안 무리를 좀 많이 했던 것 같다. 2. 직장 - ㅎㅎ... 할말 많다. 멘탈에 금가는 단어도 들었다. 3. 가족 - 우리 가족이 아프지 않고 행복했으면 좋겠다....
1. 회사 입사했을 때부터 계셨던 상사가 있던 부서의 직원으로 발령이 났다. - 이제 업무를 하면서 같이 의견 나눌 수 있는 사람들이 있어서 좋다.(but,,,, 이게 몇달 못갔지만..) 2. 대학 친구들과의 오랜 소통 - 대학교 다닐때보다 회사 다니면서 친구들과 동기들과 선배들과 더 많은 소통을 할 수 있던 한해였다. 3. 같이 어울리면 게임 등에서 만난 인연들이 쌓여서 실제로도 이어졌다. - 온라인의 인연들이 쌓여서 오프라인까지 이어졌다.
VectorStore 종류 VectorStore란 - 자연어 -> 숫자 처리한 후 이들을 저장하는 벡터 저장소 - 벡터 저장소는 임베딩된 데이터를 인덱싱하여, input으로 받아들이는 query와의 유사도 출력
Text embeddings: 텍스트를 임베디드 숫자로 변경, 비 정형 data를 수치상으로 변경해서 vector 그래프로 표시가 가능 구분 기업명 모델명 장단점 유료 임베딩 모델 OpenAI Cohere Amazon text-embedding-ada-002 embed-multilingual-v2.0- titan-embed-text-v1 - 사용하기 편리하지만 비용 발생 - API 통신 이용하므로 보안 우려 - 한국어 포함 많은 언어 임베딩 지원 - GPU 없이도 빠른 임베딩 로컬 임베딩 모델 HuggingFace bge-large-en-v1.5 multilingual-e5-large instructor-xl ko-sbert-nli KoSimCSE-roberta-multitask - 무료지만 다소 어려운..
Text Splitter: 토큰 제한이 있는 LLM이 여러 문장을 참고해 답변할 수 있도록 문서를 분할하는 역할 Text Splitter 종류 1) CharacterTextSplitter: 구분자 1개 기준으로 분할, max_token 제한을 지키지 못하는 경우가 발생할 수 있음(ex. 문단 1개) 2)RecursiveCharacterTextSplitter: 구분자 여러개로 분할, max_token 제한을 못지키면 다음 구분자로 나누어서 chunk가 max_token을 안넘도록 수정함. from langchain.text_splitter import CharacterTextSplitter text_splitter = CharacterTextSplitter( seperator = "\n\n", //제한자 ..
RAG(Retrival Augmented Genearation): 외부 데이터를 참조하여 LLM이 답변할 수 있도록 해주는 프레임워크 랭체인의 Retrieval은 RAG의 대부분의 구성 요소를 아우르며, 구성 요소 하나하나가 RAG의 품질을 좌우 !pip install langchain unstructured pypdf pdf2image docx2txt pdfminer from google.colab import drive drive.mount('/content/drive') 1. Document Loaders - Document Loader는 다양한 형식의 문서를 불러오고 이를 Langchain에 결합하기 쉬운 텍스트 형태로 변환하는 기능을 함. 사용자는 txt, pdf, word, ppt, xlsx,..
Prompt란 무엇인가 - 모델에 대한 입력 - 입력의 구성을 담당, LangChain은 프롬프트를 쉽게 구성하고 작업할 수 있도록 여러 클래스와 함수 제공 설정(API key는 OpenAPI 사이트에서 생성한다) !pip install langchain !pip install openai #API KEY 저장을 위한 os 라이브러리 호출 import os #기본 LLM 로드를 위한 라이브러리 호출 from langchain.llms import OpenAI #채팅 LLM 로드를 위한 라이브러리 호출 from langchain.chat_models import ChatOpenAI #OPENAI API키 저장 os.environ["OPENAI_API_KEY"] = 'YOUR_API_KEY' davinch3..
1. API를 통해 ChatGPT와 대화하기 * 구글 콜랩 접속(콜랩은 기본적으로 무료) https://colab.google/ 2. Open api는 사용할 수 있는 제한이 있어서 계정별 내용을 체크해야 한다. // 필수 라이브러리 설치 !pip install langchain !pip install openai #API KEY 저장을 위한 os 라이브러리 호출 import os #OPENAI API키 저장 #API KEY 발급 페이지: https://platform.openai.com/docs/guides/gpt/completions-api os.environ["OPENAI_API_KEY"] = 'YOUR_API_KEY' 3. 파이썬이 왜 가장 인기있는 언어인지에 대한 text-davinci-003을..
LangChain의 구조 현재 NLP(Natural Language Process) 모델의 거의 대부분은 Transformer 아키텍처를 기반으로 하며, 모델의 용도에 따라 트랜스포머의 Encoder, Decoder를 개별 또는 통합으로 사용하는 추세 Closed Source Open Source 개발사/ 개발모델 OpenAI / GPT-3, GPT-3.5, GPT-4 Google / PALM, LaMDA, Bard LLama 계열의 LLM / LLaMA -> vicuna -> AIpaca LLaMA2 -> upstage-llama2 Good 뛰어난 성능, API 방식의 편리한 사용성 Closed source 못지 않은 성능, 높은 보안성, 낮은 비용 Bad 보장할 수 없는 보안, API 호출 비용 개발..
공식 문서 속 소개글 - 언어 모델로 구동되는 애플리케이션을 개발하기 위한 프레임워크 - 데이터 인식: 언어 모델을 다른 데이터 소스에 연결 - 에이전트 기능: 언어 모델이 환경과 상호작용할 수 있도록 함. LangChain을 왜 써야하는가 * chatGPT의 한계점 - 정보접근 제한: 3.5 기준 2021년까지의 데이터를 학습한 LLM(초거대언어모델)이므로, 2022년부터의 정보에 대해서는 답변을 하지 못하거나, 거짓된 답변 제공 ->Vectorstore 기반 정보 탐색 or Agent 활용한 검색 결합 - 토큰 제한: 3.5, 4 모델의 경우 4096, 8192라는 입력 토큰 제한이 존재한다.(이거 넘어가면 동작하지 않음) -> textSplitter를 활용한 문서 불한 - 환각현상(Hallucina..
플로쨔응
'분류 전체보기' 카테고리의 글 목록