숨터

Torch sparse coo tensor 가지고 만들어놓은 행렬 A
일반 텐서 x

둘다 gpu 상에 있는데
반복 matmul 시켜보면
2080ti에서 cuda 점유율 60 찍히고 있고
cpu는 10%쯤 점유율 올라감

A를 to_dense 해서 dense mat로 만들고 동일한 연산해보면
Cpu 0 cuda 100 찍힘. 계산도 5배 이상 빠름.

A의 크기는 (128)*(16384) 정도고 non zero는 6000 ~ 40000 개 정도임. 대충 1~2% 차지함.

A=A.to_dense().to_sparse() 해서 토치가 알아서 재배열 시키면
Cuda 100% 찍힐 때도 있고 아닐 때도 있음.

Gpu 자체가 Sparse 연산용이 아니긴 하지만
이 정도로 성능 왔다갔다 심한 건 첨 보는데
이유를 모르겠음.......

코드 별 것도 없음 걍 for loop 안에 y=A@x 가 다임.

어딘가 cpu를 쓰는 연산이 섞여있는 거 같은데

[❓질문] vram에 있는 텐서 matmul 하는데 cpu 점유율이 올라감

댓글 0

[❓질문] vram에 있는 텐서 matmul 하는데 cpu 점유율이 올라감

댓글 0

다른 게시글

깊스추출이 뭐냐

수학 베이스 탄탄하면 딥러닝 공부 바로 딥러닝부터 시작하면 됨?

디지털 트윈 성과가 나오기 시작하는 네이버

딥러닝 음성 분야

pytorch에서 jax/flax로 넘어가는 거 고민 중인데

이 기계학습 책 읽어본사람 얼마나 됨?

[평가] 딥러닝 공부 로드맵 평가가능한가요??

수포잔데 수학은 어떻게 공부하면 될까?

아 코랩 ssh 무료버전은 안되구나

Nlp 전공하면 보통 어떤 일하나요?