Projects (2) 썸네일형 리스트형 OCR 기반 데이터 수집 및 구조화 과정 정리 OCR 기반 데이터 수집 및 구조화폴더 명: data_extraction▶ 목적육아 도서 및 자료 스캔본(PDF)을 구조화된 문단 데이터로 추출하여 RAG 기반 서비스의 참고 데이터로 활용 가능하도록 가공제공 서비스 :RAG 기반 GPT Chatbot에서 참고할 수 있는 육아 문서 기반 데이터 구축육아 워크북 생성 시 참고할 수 있는 육아 문서 기반 데이터 구축 ▶ 해당 기능의 핵심 기술 요소 및 소프트웨어 패키지Google Cloud Vision API: PDF OCR 처리https://cloud.google.com/vision/docs/pdfGCS(Google Cloud Storage)에 업로드된 PDF를 OCR 처리하고, GCS에 JSON 결과로 저장Google Cloud Storage (GCS):.. 육아 문서 기반 챗봇 구현 과정 정리 GPT 기반 조언 챗봇폴더 명: chatbot▶ 목적사용자의 자연어 질문에 대해, 관련 잇는 육아 데이터와 사용자 정보를 기반으로 하여 맞춤형 GPT 답변 생성제공 서비스 :육아 Q&A 챗봇 서비스: 질문자에게 신뢰 기반 + 개인 맞춤형 조언 제공 ▶ 해당 기능의 핵심 기술 요소 및 소프트웨어 패키지Sentence-BERT (SBERT): 질문/문서 임베딩https://huggingface.co/snunlp/KR-SBERT-V40K-klueNLI-augSTS사용자 질문과 문단을 벡터화하여 유사도 검색 가능하도록 변환FAISS: 유사도 검색https://github.com/facebookresearch/faiss벡터 간 cosine 유사도 기반으로 top-k 문단 검색OpenAI GPT API: 답변 생성.. 이전 1 다음