24b0d121e08176a167b9f68b12d21a1d80f87e3074f4a4



24b0d121e08776b660b8f68b12d21a1da1c42286fa5b


https://ai.googleblog.com/2022/02/4d-net-learning-multi-modal-alignment.html


구글이 4D-Net으로 라이다에서 입력된 3d point cloud와, 카메라에서 들어온 이미지를 결합하여(이걸 4D visual input 이라고 함) 3d box detection을 함.

결과를 보면 32개의 point cloud와 16개의 이미지 프레임을 164ms(0.164초) 이내에 처리가 가능했다고 함.


결과 뿐만 아니라 4D-Net의 모델 구조 또한 다른 input의 feature를 결합하는 과정이 흥미로우니 한 번 읽어보기를 바람.