viewimage.php?id=39b5d535ecdc3fb362bec4bc02c8&no=24b0d769e1d32ca73deb86fa11d02831d16706cea37200d6da918d798573dc64382fd8a42aa61f13ba01b0af6afbe172b40502a0685fd15cc4c973dc56ca3499ce395c1391ade5a453


이 글에 대해서 조금 더 얘기를 해보자면 이미 알파폴드2 이후에 쓴 글인데도 왜 모든 단백질을 예측하지 못한다 이런 얘기가 나오는지를 한번 보자구


일단 두 가지 이슈가 있는데 첫번째는 예측하고자하는 단백질이 monomer냐 oligomer냐의 문제임


원래 알파폴드는 monomer 단백질 분석에 특화되어있음 CASP은 모노머 구조를 예측하는 대회임


viewimage.php?id=39b5d535ecdc3fb362bec4bc02c8&no=24b0d769e1d32ca73deb86fa11d02831d16706cea37200d6da918d798573dc64382fd8a42aa61f13ba01b0af6afbe172b4686ea66958d255cacb75d630ad3493d002e0a36371dc3c9068


이게 뭔 얘기냐면 사실 단백질이라는 것은 서열(primary structure)이 딱 한 번만 꼬이는 게 아니라 "여러 번" 꼬여서 구조를 만듬


한 번 꼬여서 만들어진 구조가 알파 헬릭스나 베타 시트같은 2차적 구조(secondary structure)고 단백질의 부분에 해당함 단백질의 팔 다리에 해당하는 부분


이게 모여서 상호작용하면서 만들어내는 구조가 3차 구조(tertiary structure)임 이게 단백질 전체의 구조고 


그리고 여기서 끝나면 이게 모노머임. 단백질이 하나라서 mono. 단백질 구조예측이라고 하면 보통 3차구조 예측을 얘기함


근데 단백질끼리 모여서 새로운 단백질을 만드는 경우가 있음 이걸 4차 구조(quarternary structure)라고 하고 이러한 종류의 단백질을 oligomer 올리고머라고 함


알파폴드2가 공개되기전엔 이것까지는 알파폴드2가 못하리라고 생각했음


그래서 알파폴드2가 비록 단백질구조를 잘 예측할 수 있긴 하지만 실제 생물학자들이 다루는 대부분의 단백질은 더 복잡하고...단백질 구초 예측 분야는 아직 끝나지 않았고... 이런 얘기들이 언론에서 나왔던 거임



viewimage.php?id=39b5d535ecdc3fb362bec4bc02c8&no=24b0d769e1d32ca73deb86fa11d02831d16706cea37200d6da918d798573dc64382fd8a42aa61f13ba01b0af6afbe172b40502a0685fd15cc4c973dc569330cbfb5095ca408fd3a31a


근데 웬걸 뚜껑 열어보니 알파폴드2로 올리고머 예측해보니까 잘됨. 알파폴드3가 나올 필요도 없이, 알파폴드2를 변수만 살짝 손보면 올리고머도 구조 예측해버림


그냥 밥만 하는 밥통인줄 알았는데 "모드를 바꿨더니 갈비찜도 만들 수 있네요" 이런 격



두 번째 문제는 어떤 단백질은 "intrinsically disordered"하다는 것인데, 이게 무슨 얘기냐면 구조가 딱 정해져 있지 않고 흐물흐물 한 부분이 있는 단백질이라는 것


근데 흥미롭게도 알파폴드2가 매우 낮은 정확도 스코어를 부여한 부분들이 이 흐물흐물한 부분과 정확히 일치한다는 점이 밝혀짐 


즉 어떤 단백질이 태생적으로 흐물흐물 한지 아닌지 그 목록은 이미 알파폴드2만돌려도 뽑아낼 수 있는 상황


그럼 얘들이 왜 구조가 흐물하냐? 얘들은 이렇게 구조가 흐물거리다가 주변 환경에 따라서 구조가 고정이 되는 방식임. 리간드라든지 핵산이라든지 이런 것들과 결합하면서 모양이 결정됨



viewimage.php?id=39b5d535ecdc3fb362bec4bc02c8&no=24b0d769e1d32ca73deb86fa11d02831d16706cea37200d6da918d798573dc64382fd8a42aa61f13ba01b0af6afbe172b40502a0685fd15cc4c973dc56c565cc779dd2a390947bc31f

그리고 하사비스가 "그 문제를 지금 해결하려고 손보고 있다"고 언급함 여기서 protein interaction이나 protein complex가 처음 언급한 단백질끼리 상호작용하는 부분인데 이 부분은 이미 알파폴드2만으로도 일정정도 해결이 가능한 부분이라고 앞서 말했음


다만 원래 밥통 용도로 나온 것으로 갈비찜을 만드는 것보단 찜기로 갈비찜 만드는게 더 낫고, 단백질은 서 너개 합쳐질수도 있지만 훨씬 더 대규모로도 상호작용할 수 있기때문에 추후 알파폴드3는 oligomer나 polymer 구조 예측에도 더욱 특화되어 나올 것으로 보임


그리고 여기서 ligand binding이라고 얘기한 부분은 두 번째로 언급한 문제 가운데 하나로, 딱딱한 단백질이든 흐물흐물한 단백질이든 단백질 아닌 다른 무엇과 상호작용하면서 구조가 바뀌는 문제도 차세대 알파폴드가 해결할 것이다라고 하사비스가 얘기한 것 다만 지금은 초기 단계일 뿐이지만



viewimage.php?id=39b5d535ecdc3fb362bec4bc02c8&no=24b0d769e1d32ca73deb86fa11d02831d16706cea37200d6da918d798573dc64382fd8a42aa61f13ba01b0af6afbe172b4686ea66958d255cacb75d630ad3dc8c63a1950023bd56a4321


그리고 알파폴드는 올 연말까지 인간에게 알려진 모든 1억 3천만개의 단백질 구조를 데이터 베이스화 해서 무료로 공유하기로 했음

혹자는 이게 "단백질 구조 예측의 끝이아니다"라고 하지만 이렇게 모든 개별 단백질을 데이터 베이스화 한 이상, 그리고 이 데이터베이스에 어떤 단백질은 조금 더 흐물거리느냐 아니냐의 정보까지 들어있는 이상 그 이상의 단계는 시간문제일 뿐임


"세상에 존재하는 모든 레고 블럭의 목록을 만들었습니다" 가 되었으니


이제 이것끼리 합쳐서 뭘 만들 수 있는지, 레고블럭이랑 지점토를 함께 쓰면 뭘 만들 수 있는 지 알 수 있는 만반의 준비가 갖춰진것 


알파폴드 이전에는 레고블럭 하나가 어떻게 생겼는지 알려고 수천만원씩 들여가면서, 빠르면 몇 개월 길면 몇 년이 걸려도 못해내기도 했고, 그래서 60년동안 고생고생 해서 겨우 그 구조를 십수만개 파악했는데


딥마인드가 1억 3천만개를 몇개월만에 예측해버릴 것이라서 


이제 딥마인드 포함 모든 구조생물학자들과 인공지능전문가들은 "레고 블럭이 어떻게 생겼느냐"문제는 넘어가고 "레고블럭으로 뭐 만들수 있나"라는 문제에 모든 자원과 인력을 집중시킬 수 있게 된 것임