이걸로학습하면 기존 모델 성능 10배이상 커지는거 맞음?
[일반] 아직 블랙웰로 학습시킨 모델없지??
익명(a0xqw9eifhl5)
2025-05-05 20:15:00
추천 0
댓글 7
다른 게시글
-
o4 풀버전 벤치마크나 공개했으면
[일반] 익명(start9771) | 25.05.05추천 0 -
그록 이미지 생성도 좀 좋아질려나
[2][일반] 익명(183.101) | 25.05.05추천 0 -
제미나이도 핵심을 찌르니 뭐니 하네
[5][일반] gemini는제..(main6862) | 25.05.05추천 0 -
챗GPT 후빨이 불쾌한 이유가 뭘까?
[5][일반] 익명(1.241) | 25.05.05추천 0 -
사실상 재귀개선 지수발전은 이미 시작된 거라 봐야겠지?
[1][일반] 익명(sigh9970) | 25.05.05추천 0 -
난 gpt5보다 오픈웨이트 모델이 더 기대됨
[2][일반] ㅁㄱㅌㅊ(39.122) | 25.05.05추천 1 -
겨울이다..
[일반] 익명(a6rcffprx2vv) | 25.05.05추천 0 -
DQN이 PPO보다 성능 더 좋게 나올 수도 있냐?
[2][일반] 익명(125.251) | 25.05.05추천 0 -
RAG 플로우 개발하고 있는데 BGE-M3 요즘 쓰냐?
[5][일반] 익명(125.251) | 25.05.05추천 0 -
에이다 러브레이스 걍 1800년대 특갤러 아님?ㅋㅋ
[5][일반] 익명(121.128) | 25.05.05추천 0
학습 속도가 빨라지는 거지 같은 같은 알고리즘 같은 데이터를 박으면 걍 똑같은 모델임
더빠른 학습속도로 스케일링 키우면 성능 오르지않음?
학습 속도가 빨라지는 거는 개발 속도/개발 가격을 인하하는 거고 그거랑 별개로 추론에 블랙웰을 쓰는게 핵심아님? 지금처럼 뭐만 하면 하루 할당량 다 채웠다고 제약당하는 게 아니라 넉넉하게 빠르게 돌릴 수 있다는 거
속도빨라지면 스케일링 더 키울수있어서 성능 오르는거 아님?
ㄴ속도도 빨라지고 돌리는데 드는 비용도 낮아지니 스케일 키울 수 있는게 맞는 말이긴 함 근데 "TTC 스케일링이랑 가중치 스케일링이 상관관계가 있다"까지가 현재 밝혀진 전부고 사전 학습 인프라에 얼마를 투입하면 얼마나 리턴을 볼 수 있을지 이런 게 아직 구체화되지 않은 상태라서 두고 봐야 할듯
메모리 용량: H100 80GB B100 192GB 메모리 대역폭 H100: 3.35TB/s. B100 8TB/s 블랙웰이 좋긴 해 - dc App
보통 B200을 더 많이 사가는 것 같던디 걔는 288GB였던가