이 글에 대해서 조금 더 얘기를 해보자면 이미 알파폴드2 이후에 쓴 글인데도 왜 모든 단백질을 예측하지 못한다 이런 얘기가 나오는지를 한번 보자구
일단 두 가지 이슈가 있는데 첫번째는 예측하고자하는 단백질이 monomer냐 oligomer냐의 문제임
원래 알파폴드는 monomer 단백질 분석에 특화되어있음 CASP은 모노머 구조를 예측하는 대회임
이게 뭔 얘기냐면 사실 단백질이라는 것은 서열(primary structure)이 딱 한 번만 꼬이는 게 아니라 "여러 번" 꼬여서 구조를 만듬
한 번 꼬여서 만들어진 구조가 알파 헬릭스나 베타 시트같은 2차적 구조(secondary structure)고 단백질의 부분에 해당함 단백질의 팔 다리에 해당하는 부분
이게 모여서 상호작용하면서 만들어내는 구조가 3차 구조(tertiary structure)임 이게 단백질 전체의 구조고
그리고 여기서 끝나면 이게 모노머임. 단백질이 하나라서 mono. 단백질 구조예측이라고 하면 보통 3차구조 예측을 얘기함
근데 단백질끼리 모여서 새로운 단백질을 만드는 경우가 있음 이걸 4차 구조(quarternary structure)라고 하고 이러한 종류의 단백질을 oligomer 올리고머라고 함
알파폴드2가 공개되기전엔 이것까지는 알파폴드2가 못하리라고 생각했음
그래서 알파폴드2가 비록 단백질구조를 잘 예측할 수 있긴 하지만 실제 생물학자들이 다루는 대부분의 단백질은 더 복잡하고...단백질 구초 예측 분야는 아직 끝나지 않았고... 이런 얘기들이 언론에서 나왔던 거임
근데 웬걸 뚜껑 열어보니 알파폴드2로 올리고머 예측해보니까 잘됨. 알파폴드3가 나올 필요도 없이, 알파폴드2를 변수만 살짝 손보면 올리고머도 구조 예측해버림
그냥 밥만 하는 밥통인줄 알았는데 "모드를 바꿨더니 갈비찜도 만들 수 있네요" 이런 격
두 번째 문제는 어떤 단백질은 "intrinsically disordered"하다는 것인데, 이게 무슨 얘기냐면 구조가 딱 정해져 있지 않고 흐물흐물 한 부분이 있는 단백질이라는 것
근데 흥미롭게도 알파폴드2가 매우 낮은 정확도 스코어를 부여한 부분들이 이 흐물흐물한 부분과 정확히 일치한다는 점이 밝혀짐
즉 어떤 단백질이 태생적으로 흐물흐물 한지 아닌지 그 목록은 이미 알파폴드2만돌려도 뽑아낼 수 있는 상황
그럼 얘들이 왜 구조가 흐물하냐? 얘들은 이렇게 구조가 흐물거리다가 주변 환경에 따라서 구조가 고정이 되는 방식임. 리간드라든지 핵산이라든지 이런 것들과 결합하면서 모양이 결정됨
그리고 하사비스가 "그 문제를 지금 해결하려고 손보고 있다"고 언급함 여기서 protein interaction이나 protein complex가 처음 언급한 단백질끼리 상호작용하는 부분인데 이 부분은 이미 알파폴드2만으로도 일정정도 해결이 가능한 부분이라고 앞서 말했음
다만 원래 밥통 용도로 나온 것으로 갈비찜을 만드는 것보단 찜기로 갈비찜 만드는게 더 낫고, 단백질은 서 너개 합쳐질수도 있지만 훨씬 더 대규모로도 상호작용할 수 있기때문에 추후 알파폴드3는 oligomer나 polymer 구조 예측에도 더욱 특화되어 나올 것으로 보임
그리고 여기서 ligand binding이라고 얘기한 부분은 두 번째로 언급한 문제 가운데 하나로, 딱딱한 단백질이든 흐물흐물한 단백질이든 단백질 아닌 다른 무엇과 상호작용하면서 구조가 바뀌는 문제도 차세대 알파폴드가 해결할 것이다라고 하사비스가 얘기한 것 다만 지금은 초기 단계일 뿐이지만
그리고 알파폴드는 올 연말까지 인간에게 알려진 모든 1억 3천만개의 단백질 구조를 데이터 베이스화 해서 무료로 공유하기로 했음
혹자는 이게 "단백질 구조 예측의 끝이아니다"라고 하지만 이렇게 모든 개별 단백질을 데이터 베이스화 한 이상, 그리고 이 데이터베이스에 어떤 단백질은 조금 더 흐물거리느냐 아니냐의 정보까지 들어있는 이상 그 이상의 단계는 시간문제일 뿐임
"세상에 존재하는 모든 레고 블럭의 목록을 만들었습니다" 가 되었으니
이제 이것끼리 합쳐서 뭘 만들 수 있는지, 레고블럭이랑 지점토를 함께 쓰면 뭘 만들 수 있는 지 알 수 있는 만반의 준비가 갖춰진것
알파폴드 이전에는 레고블럭 하나가 어떻게 생겼는지 알려고 수천만원씩 들여가면서, 빠르면 몇 개월 길면 몇 년이 걸려도 못해내기도 했고, 그래서 60년동안 고생고생 해서 겨우 그 구조를 십수만개 파악했는데
딥마인드가 1억 3천만개를 몇개월만에 예측해버릴 것이라서
이제 딥마인드 포함 모든 구조생물학자들과 인공지능전문가들은 "레고 블럭이 어떻게 생겼느냐"문제는 넘어가고 "레고블럭으로 뭐 만들수 있나"라는 문제에 모든 자원과 인력을 집중시킬 수 있게 된 것임
결국 아직 초기다 이거군
초기라기 보다는 단백질 구조 예측은 끝났고, "단백체학"의 연구분야가 남아있는 것이라고 보아야함. 사실 기존의 x선 결정학을 통해서도 생체 내의 단백질은 어떤 모습인지를 알아본 것이 아니라 결정구조를 만든 단백질 구조를 알아본 것이지만, 대부분 단백질은 그 구조가 생체 내에 있을 때 구조와 대동소이하기 때문에 큰 상관이 없었음 "생명체 내의 단백질구조를 모르기 때문에 아직 문제가 해결안됐다"라고 하는 사람들은 단백질이 아니라 단백질과 비단백질 사이의 결합을 얘기하는데 그 부분을 건드리는게 차후의 연구과제
상호작용을 알아낸다는건 카페인같은 물질의 체내대사도 알수있다는뜻임?
카페인같은 물질의 체내대사도 알수있다는뜻임? => 이 부분은 훨씬 도움이 된다가 답이 되겠음 그치만 "모든 물질의 체내 대사과정을 유전정보랑 연결시키려고 한다"면, 그것은 또 다른 AI혁신이 필요함 이 부분은 대사체학 영역인데 단백질 구조 예측처럼 인간이 손 못대고 있는 부분들이 있기 때문임
응 결국 '예측'일 뿐이야 오바 ㄴㄴ
이 "예측된 결과"를 기반으로 연구하면 구조의 "확정"은 몇 년에서 며 칠로 단축되어버림 한번에 필요한 단백질 구조만 확정하면 되기때문에 사실상 예측이지만 확증이나 같음. 그나마도 예측만으로 너무 정확한 나머지 X선 결정학 연구분야는 아예 사장될 상황에 놓여있음
오 생공 전공자임???? 자동차로 비유하면 dna 구조가 설계도이고 단백질 구조가 부품들이라고 생각하면되는겨?
그렇다고 할 수 있음
차후 과제는 그럼 상호작용이라고 했는데 어떠한 방식으로 부품들을 조립해서 시동을 걸지라고 쉽게 생각하면되냐?
"시동을 건다" 부분은 아예 다른 학문분과로 넘어가 버림. 이 부분도 AI가 해결할 수 있을지는 현재는 추측의 영역이고 관련 연구자들이 우리 분과도 AI로 연구하면 어떨까? 이러고 있는 상황. "부품끼리 어떻게 조립할까" 문제가 차후 과제라고 볼 수있음
대혁명이 온다..
고맙다 잘 읽었어
고맙다
그래서 몇년뒤면 의학계는 혁명이 온다는거임?
임상기간 생각하면 최소 3년정도가 걸릴거임 데이터베이스가 확충되는데도 몇개월이 걸리겠지만 알파폴드 도입한 기관들은 이미 많고 벌써 성과를 내고있으니 시작했다고 봐야지 일례로 이미 도쿄대는 알파폴드2를 로컬로 설치했다고 함
와 ㄹㅇ 10년뒤면 현재 불치병 난치병이라 생각했던 병들이 치료되는 병으로 되어있을 확률이 높다는거네...
형냐존나멋져
양질의글 존나 ㄳㄳ
그럼 단백질의 일종인 탈모치료같은 것도 ㄱㄴ?
그것 또한 훨씬 더 접근하기 쉬워졌다고 봐야함 하지만 탈모는 아주 어려운 과제인만큼 많이 기다려야해
해당 댓글은 삭제되었습니다.
"해결할 수 있다"가 아니라 "해결하기 쉬워진다"임 그 영역은 감염병, 자가면역질환, 종양, 심혈관계 질환, 신경계 질환 등 인간이 상상할 수 있는 모든 질병을 총망라함
존내 매혹적인 글이네
배운사람은 다르네 ㄱㅅㄱㅅ
베이커팀의 로제타폴드 성과에 대해서는 어떻게 생각함? 딥마인드쪽이랑 아이디어가 많이 겹침?
로제타폴드는 알파폴드2를 기반으로 개발한 것이고 예측의 정확성 측면에서는 작년에 공개된 알파폴드보다 나은 부분도 있었으나 좀 더 못한 부분이 많았음 대신 단백질의 쓸모있는 핵심적인 구조를 보다 잘 포착해내고 복합체 구조 예측이 가능하고 컴퓨팅 파워를 덜 소모한다는 점에서 더 낫다고 했는데 알파폴드 2도 그새 개선을 거쳐서 컴퓨팅파워 소모 측면에서는 비슷해짐
그리도 복합체 구조 예측은 보다시피 알파폴드2를 조금 손보면 가능해졌고. 현재 버전끼리만 비교할 때는 전반적인 퍼포먼스는 알파폴드2가 조금 우세하다 하겠으나 이제 앞으로는 알파폴드2와 로제타폴드의 자강두천 양강대전이 아니라 복수 개 프로그램 사이에 춘추전국시대가 벌어질 것이라 큰 의미가 없다고 봄
이미 알 쿠라이시는 BERT 알고리즘으로 단백질 구조 예측하는 신경망을 고려하고 있고 각국 연구진에서 알파폴드2를 바탕으로 더 좋은 물건을 만들어내려고 고군분투중 지금 허접한 바둑 ai들이 과거 알파도보다 훨씬 월등하듯 알파폴드2보다 더 괜찮은 물건들도 더 쏟아져나올거임 걔들의 주요임무는 이제 단일단백질 구조예측이 아니라 본문에 나온 더 힘든 과제들이 되겠
굿 설명감사
뭐래냐 ㅋㅋㅋ결국쥐시신경방식으로 해야하는데 ㅋㅋㅋ
뭐라는 거야 대체 주제에 맞는 말을 해
와 이해하기 쉽게 설명해주셔서 고맙습니다
글 잘 읽히게 잘쓰네 ㅋㅋ
이정도면 솔까 대혁명이네
그래서 맨위에 사람말은 틀렸다는거?