https://ai.googleblog.com/2022/02/4d-net-learning-multi-modal-alignment.html
구글이 4D-Net으로 라이다에서 입력된 3d point cloud와, 카메라에서 들어온 이미지를 결합하여(이걸 4D visual input 이라고 함) 3d box detection을 함.
결과를 보면 32개의 point cloud와 16개의 이미지 프레임을 164ms(0.164초) 이내에 처리가 가능했다고 함.
결과 뿐만 아니라 4D-Net의 모델 구조 또한 다른 input의 feature를 결합하는 과정이 흥미로우니 한 번 읽어보기를 바람.
classification도 가능?
어차피 CNN이니까 조금만 고쳐도 가능하지 않을까?