번화가에서 10초 정도 녹음하고


"지금 무슨 상황인지 맞춰봐"


이렇게 했을 때, 상가에서 들리는 노래 제목까지 맞추고, 주변 소음만 듣고 무슨 종류의 상가가 있는지 맞추는 레벨까지 가면 진짜 인정함.


GPT-Vision한테 앵무새 착시 사진 보여줬을 때만큼의 충격을 줄 수도 있음.


이정도 귀는 되어야 휴머노이드에 들어가지