그냥 Competition에서 지표 좋게 나오는 것들은
1. 어딘가에서 정답 레이블을 찾아와서 복붙
2. Domain에 맞는 Pretrained Model로 Fine-tuning 하기
둘 중 하나던데 거의 다 이렇게 하는거임? 딥린이라서 Kaggle로 연습하는데 지표 좋게 나오는 Code들은 죄다 이런것 같음.
그냥 Competition에서 지표 좋게 나오는 것들은
1. 어딘가에서 정답 레이블을 찾아와서 복붙
2. Domain에 맞는 Pretrained Model로 Fine-tuning 하기
둘 중 하나던데 거의 다 이렇게 하는거임? 딥린이라서 Kaggle로 연습하는데 지표 좋게 나오는 Code들은 죄다 이런것 같음.
캐글 의의 생각해보면 경우에 따라선 2번은 문제없어 보이고, 1번은 걍 병신인듯
2번도 괜찮다고 생각하다가도, 모델 아키텍처에 의해 좋은 지표가 나온 것이 아니라 그냥 데이터 물량으로 좋게 나온 거라는 생각도 들어서 모델 아키텍처 부분 공부는 Kaggle로는 어렵나 생각이듬...
현실에서 2번은 매우 흔하긴 함
2번이 무슨문제인데?
요새 소위 말하는 'sota' 아키텍쳐라면 거의 pretraining 없이는 성능이 잘 나오지 않을거고, 그렇다고 scratch부터 training 한다고 쳐도 말이 안되는게 그렇게 training 시킬 양질의 데이터가 있으면 그런 대회를 여는 의미가 없을텐데? 또한 sota가 kaggle notebook에서 원활하게 돌아가면 또 모를까 그것도 아니고
말이 길어졌는데 kaggle이 추구하는 대회는 실제로 현업과 유사한(또는 그보다 더 골때리는) 문제들을 빠르고 정확하게 해결하는 데에 의의가 있는거고, 실제로도 데이터와 관계없이 sota architecture 때려넣었다고 해결되는 문제는 많지 않은듯?