내가 일단 어셈블리(nasm), CUDA, x86 SIMD(avx2) 로 바이브 코딩 돌려봤는데, 


최적화 거의 완벽하게 해줬음. 


근데 기본적인 최적화는 잘 하는데 (예를 들어 line buffer, cache 최적화, 레지스터간 종속성 최소화 등)


알고리즘적으로 최적화가 필요한경우는 구체적인 최적화 방법을 지시를 해줘야 제대로 구현이 되긴하더라 ㅇㅅㅇ