시계열이랑 신호 분석 장난을 많이 쳐서 (어떤 feature가 유의미할지 몰라서) 막 만들다보니 shape이 (200, 9000) 정도 됨..cols 개수가 9000 이진 분류 문제!

학습 돌리기전에 이건 미리 feature 뽑고 가면 반듯이 누수일 거 같드라고. Nest-kfold로 하고 inner에서 매번 특성 k=20 정도로 뽑으려고 했음. feature 달라져도 교집합이나 그런 것들 몇 개 보고하려고.

근데 단순 corr이나 MI, f-value로 추출하면 매트릭이 쓰레기고, 래퍼 식으로 한딴한땀 하려하니까 계산량이 너무 많음..

Fast-mRMR? MI 기반 방식 있던데 다변량이라 ㄹㅇ 돌리다보면 한세월,, 고슈들은 이럴 때 어케하나요.

의료쪽이라 그냥 데이터 중에 domain으로 썰 풀수 있는 거 찾고 고정해둬야 하남. 논문 기반 아니여도 노하우 있으면 부탁합니당

- dc official App