어우 이거 pdf 에서 텍스트 뽑아내는거가 엄청 일이네
솔직히 데이터만 확보되면 청킹 임베딩 retrieval chat app 구축 까지는 존나 후루룩 넘어갈거같은데
pdf 에 있는걸 잘 구조화된 텍스트로 뽑아내는게 생각보다 개어려움
어우 이거 pdf 에서 텍스트 뽑아내는거가 엄청 일이네
솔직히 데이터만 확보되면 청킹 임베딩 retrieval chat app 구축 까지는 존나 후루룩 넘어갈거같은데
pdf 에 있는걸 잘 구조화된 텍스트로 뽑아내는게 생각보다 개어려움
ㅇ rag 파이프라인 자체는 langchain 생태계 쓰면 뚝딱이다 문제는 성능인데 네 말대로 텍스트 뽑아내는 거도 문제고 그걸 어느 단위로 쪼개는 것도 문제임. 정해지 답은 없고 그냥 데이터셋 분석해서 최적화해야함.