숨터

이 글에서 다룰 것은 https://www.kaggle.com/prathamtripathi/drug-classification 이 사이트에 있는 데이터셋을 활용하여서 이게 최종적으로 무슨 약인지 예측할 것 이에요. k-최근접이웃 classifier 모델을 활용할 것 이구용..

배울 것은 아래와 같아요

one-hot encoding 하는 방법

k-neareset neighbor classifier model 사용법

데이터셋 파악을 해보죵

성별, 나이, 콜레스트롤, Na-K 등이 있고 결론적으로 약 이름이 있어용

어떤 성별과 나이에 관해서 특정한 약이 콜레스트롤과 Na-K 값을 그리 하게 만들었다고 데이터를 볼 수 있겠네용 ㅇㅅㅇ.

자 그럼 어떻게 모델을 돌릴까요.

약은 성별과 나이에 따라 편차가 갈리는 것이죠? 따라서 성별은 성별대로 묶고, 나이는 20대, 30대, 40대로 묶어서 진행하면 더욱 좋겠지요.

하지만.... 그렇게 짜는 것은 오늘 배울 것과 거리가 있어서 패스할게용 ㅇㅅㅇ.

path = "/kaggle/input/drug-classification/drug200.csv" df = pd.read_csv(path) header = df.columns

feature_names = ['Age','Sex','BP','Cholesterol','Na_to_K'] data = df[feature_names].to_numpy() target = df[['Drug']].to_numpy()

이렇게 해서 데이터랑 예측할 타겟을 분리했어용. 그런데 아직 할 게 남았죠. 바로 원-핫 인코딩이에용.

사이킷런 모델에서 요구하는 것이기도 하공.. 숫자는 그래프적인 표현이 가능하죠. 문자는 계단적 표현인데 반해서용. 어쨌든 숫자로 바꾸어줍시당.

one_hot_encoding_char = {"F":0, "M":1, "NORMAL":0, "HIGH":1,"LOW":2} def one_hot_encode(arr, char): result = arr for i in range(0, arr.size): result[i] = char[arr[i]] return result data[:,1] = one_hot_encode(data[:,1], one_hot_encoding_char) data[:,2] = one_hot_encode(data[:,2], one_hot_encoding_char) data[:,3] = one_hot_encode(data[:,3], one_hot_encoding_char)

이제 모델을 불러오고, 테스트셋과 트레이닝셋을 분리합시다. 최종저긍로 과적합인지 아닌지 판별하는 목표를 위해서용.

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(data, target, random_state=0)

from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier(n_neighbors=3) knn.fit(X_train, y_train)

이웃 수는 적당히 잘 조절하세용~~

predicted = knn.predict(X_test) score = 0 for i in range(predicted.shape[0]): boolean = predicted[i]==y_test[i] print("{} == {} ? {}".format(predicted[i], y_test[i], boolean)) if(boolean == True): score+=1 print("Score is {}%".format(score / predicted.shape[0] * 100))

끝!

[💡정보] k-최근접 이웃 알고리즘, 케글 실전.howto

댓글 1

[💡정보] k-최근접 이웃 알고리즘, 케글 실전.howto

댓글 1

다른 게시글

딥러닝 입문단계 알려줘

AI 가속기에 대한 글과 인터뷰

딥러닝 머하는거에요?

딥뗄감, 딥러닝 하면서 시간 제일 많이 쓴거

language 모델의 취약성과 이를 해결하는 방법

data augmentation에 대한 논문

한국 저자가 쓴 ViT를 설명하는 논문이 나왔다

deep RL로 토카막의 자기장 제어

딥마인드쪽 연구가 정말 대단해

MuZero를 이제는 온갖 곳에 다 가져다 쓰네 ㅋㅋㅋㅋ