rag 만들어본애 있냐

익명(112.146) 2026-05-17 03:52:00 추천 0

어우 이거 pdf 에서 텍스트 뽑아내는거가 엄청 일이네

솔직히 데이터만 확보되면 청킹 임베딩 retrieval chat app 구축 까지는 존나 후루룩 넘어갈거같은데

pdf 에 있는걸 잘 구조화된 텍스트로 뽑아내는게 생각보다 개어려움

댓글 1

ㅇ rag 파이프라인 자체는 langchain 생태계 쓰면 뚝딱이다 문제는 성능인데 네 말대로 텍스트 뽑아내는 거도 문제고 그걸 어느 단위로 쪼개는 것도 문제임. 정해지 답은 없고 그냥 데이터셋 분석해서 최적화해야함.

익명(124.48) 2026-05-17 03:58:00