BCE 설명을 보니까 두 개의 class 중 하나를 예측하는 task에 대한 cross entropy의 special case

라고 써져있는데

그러면 label이 여러개면 이거 안쓰는건가여

그리고 backward 하면 optimizer에 변화가 저장되는거 맞죠?

완전 뉴비임니다