책팔이식 속독은 가장 치명적 결함은
"정보를 빠르게 시각으로 입력시키는 방법"에 대해서만 다룬다는 점,
그리고 "이미 알고 있고 친숙한 분야"에서만 "정보가 입력되었다는 착각 체감"을 준다는 점이다.
인지신경과학적으로는 새 정보가 입력되었을 때 무언가를 이해한다는 것은
"무에서 유가 창조되는 것"이 아니라
기존에 내가 가지고 있던 지식들과 연결이 되는 것이 "이해"다.
그래서 사람들과 대화하다보면 느낄 것이다.
"내 말 뜻은 이게 아닌데, 이 사람이 이 부분을 이해하려고 자신만의 방식으로 내 논의의 전제들을 일부분 추정/임의가공해서 정보전달에 오차가 생겼구나"
이것은 바보라서가 아니라 사람들이 아주 전략적으로, 의식적인 노력을 들인다는 뜻이다.
물론, 게으르고 편협한 사람이라서 그런 경우도 있다.
과도한 인지적 부하량을 감당하지 못하고 그 사람의 뇌에서는 재빠르게 태깅하고 "이해했다"고 생각하고 넘겨버려야 마음이 편해지기 때문이다.
근데, 이게 속독에서의 "이해했다는 착각"과 메커니즘이 같다.
"내가 알던 거랑 유사한 느낌이네?" -> "이해했음"
하고 끝나버리면 새로운 정보를 뇌에 입력하는 시도 자체가 필요가 없다(이미 내가 가진 지식이므로 업데이트량이 0에 수렴함. 복습할 거면 백지인출을 하고 문지해결에 지식을 사용해라. 단순히 다시 읽지말고)
뇌가 새롭게 입력되는 정보들을 처리할 때는
이미 형성된 내부 세계 모델에 대해서 Bayesian Update를 거친다.
즉, 정보의 가치(VoI) 기반으로
내 뇌의 정보를 전략적으로 업데이트 하는 량이 큰 정보(High VoI)를 선별해서 받아들여야 한다.
그래야 논문, 책, 글 등을 독해할 때
시간적/대사적 소비량 대비 얻는 정보이득이 커진다.
ㅡㅡㅡ
즉, 윗 내용까지는 독해 가속화를 하기 이전에 VoI gating을 하는 메타인지와 인지적 유연성, 집행능력을 먼저 기르거나 적절히 활용해야 한다는 내용이다.
그 High VoI 선별이 된 후에 빠르게 읽는 방법은
글의 구조화에 있다.
이 구조화 능력은 현재 논의 목적상 크게 3단계로 나눌 수 있다.
1단계: 문장(문단)간 관계구조 파악
2단계: 변수간 관계구조 파악
3단계: 구조간 구조 파악(동역학적 수준)
그러면 <<1단계 구조화능력>>은 LSAT, PSAT, LEET 이런 시험에서 쓰이는 문단 구조화 전략들을 말하는 것인가?
큰 관점에서는 그렇다.
대다수 문헌들이 특정 형식구조를 지키게끔 설계가 되어있어서
1. 스코프
2. 핵심 주장
3. 근거(강화 or 약화)
4. 한계
5. 시사점
5가지 문장 정도로 기본 뼈대만 빠르게 스캔하고
각 문장들간의 관계만 파악해도 수 많은 문단형태의 글들은 더 빠르게 읽는 이가 정보를 가공할 수 있다.
유사 하위전략이 목차를 먼저 읽어라/목차화 하라는 건데
목차를 읽는 것은 priming effect를 노리는 것이므로 이 경우에는 공간감각으로 각 문단간의 "관계적 위치" 파악을 하는 설계도를 뇌에 미리 까는 것이다.
그걸 미리 깔고 보면 "아 이게 핵심 주장이므로 -> 다음 문장에는 이걸 강화하는 문장이 오겠네" 라고 인덱싱이 빨라진다.
그래서 이걸 트레이닝 하는 것도 필요는 하고 좋다.
그러나, 더 빠르게 하려면 더 본질만을 쏙쏙 정확하게 추출해내야 한다.
심지어 보통 인간은 3~4 chunk의 Working Memory Capacity 한계가 있다.
그리고 작업기억 용량 한계 chunk가 더 크다고 큰 의미는 없다. 결국 우주의 복잡성은 인간 뇌 한계를 벗어나기 때문에 결국 모델링하든 이해를 하든 정보 압축은 필연적으로 해야하기 때문이다.
모든 문서에는 Minimal Sufficient Representation(최소충분표상, MSR)이 존재하고
이 최소 충분 정보랑만을 뽑아내는 것이
문서 학습의 가속화에 가장 핵심이다.
그런데 이 MSR은 범용성을 위해 만들어진 추상적인 구조다.
위의 핵심 주장 - 강화 근거 or 약화 근거와 같은 논증적 형태의 정보도 받아들일 수 있고
자연과학, 공학 등 논문에서는
변수들이 존재하는 논문이면
abstract에서 빠르게
1. 독립변수 (IV) = A
2. 종속변수 (DV) = B
3. Rule: A 증가 -> B 증가
4. 메커니즘: A 증가 -> 매개변수 Z -> B 증가
추출이 가능하다.
이것이 <<2단계 구조화 능력>>이다.
이 뼈대 정보(MSR)를 가지고 나머지 논문 속 문장들이랑 관계를 빠르게 파악해나가며
뼈대에 살을 붙혀가는 식으로 지식을 연결시켜나가고 완성해가는 것이 2차적 가속단계다.
이제 핵심은 이해했을 것이다.
그런데 여기서 메타적으로 한 번 더 바라보자.
이렇게 하면 속도가 빨라지긴 하는데,
더 빠르게 하는 방법이 있을 것 같다.
아무리 내가 다학제 학위가 여러가지가 있어도
생소한 분야 논문을 보고 바로 다 이해할 수는 없다.
그래서 생소한 분야의 논문 하나를 빠르게 읽는 것으로 scope를 잡지말고
scope scale을 확대해서
논문 하나를 한 번 제대로 읽었을 때 -> 다른 관련 분야 논문들도 더 빠르게 학습이 되는 것이
메타적 관점에서 훨씬 인지적 유연성이 높은 효율적 전략이다.
이건 지식의 transfer effect 때문이다.
춤의 안무를 딴다고 해보자.
처음에는 2분짜리 안무를 따는 것이 3시간이 걸렸지만
안무를 수십번 따고나면 1시간 반, 수백번 따고나면 30분만 투자해도 된다.
왜냐하면 안무 하나를 따면서 쌓인 지식이 다른 안무를 딸 때도 transfer가 되기 때문이다.
"아 안무를 따도 원하는 느낌이 안 난 이유가 골반을 이렇게 움직여야 해서구나"
"옴뷰리뉴 댄스는 어깨가 핵심이 아니라 골반 그루브가 핵심이구나"
"old school party dance는 바운스 그루브에서 나오는 느낌만 가져가면 되는구나"
"kpop 안무는 시선처리, 표정처리가 더 중요하구나"
이런 지식들이 몇번 안무따는 연습으로 쌓이기만 해도, 점점 다른 안무들을 따는 게 가속이 붙는다.
같은 transfer effect 원리이다.
우리는 한 논문을 읽을 때 "체감 이해도"가 높아지는 방법이 아니라
effective transfer rate(Te)를 높히는 문서 학습 가속법을 설계해야 한다는 것이다.
그래서 구조, 패턴, 휴리스틱, 스키마, 라이브러리 등의 개념들이 도입이 된다.
사전 지식이 거의 없는 논문을 읽고 왜 이해가 안 가는지를 빠르게 파악
-> 이런 용어, 개념, 원리, 메커니즘, 규칙 등에 대한 지식의 공백을 스케치
-> 이 스케치 된 공백을 빠르고 효율적으로 메꾸는 방법 설계
그게 바로 "스키마 라이브러리"다.
생소한 분야 논문은 모르는 용어가 많다(이 용어랑 연결된 뉴런들이 거의 없음)
그래서 미리 이 용어랑 연결된 뉴런들을 만들어줄 건데,
이때 제트팩 달고 거인의 어깨에 올라가야한다. LLM AI들이 그걸 해준다.
그럼 AI에게 어떤 방향으로 정보를 제공해달라 해야하는가?
"가장 많이 쓰이는 경제학 용어들을 실사례와 함께 제시해달라"
"게임이론의 핵심을 요약해달라"
이런 방향도 가능은 한데,
이건 LLM에 대한 근본적인 원리 이해도가 낮은 상태의 사용경향이다.
attention 메커니즘을 쓰는 transformer 아키텍쳐 = LLM AI 라는 걸 이해하면
얘네들이 사용하는 학습원리, 추론원리를 어느정도 이해할 수 있는데
얘네가 사용하는 방대한 지식 학습방법을 인간 뇌에도 일부 적용이 가능하고
재밌게도 자체적으로 조사해본 결과 IQ 기준 3SD에 근접하거나 넘을 수록 LLM의 학습 가속 방법과
인간 초고지능자들의 학습 가속 방식에 있어 구조적 유사성이 있다.
특히 목표를 "빠르게 새 분야에 대한 이해도를 높히는 것"이었기 때문에
이 목표에 가장 합목적적인 방식은 MSR 기반, 계층화, 도메인 기반 등 관점으로 구조를 찾아내고
그 구조 뼈대(=해당 학제에 대한 스키마)를 바탕으로 빠르게 다른 논문들을 섭렵해나가는 것이다.
예를 들어
경제뉴스도 안 읽어본 사람이 갑자기 경제시장 분석 리포트를 읽는다면 속독이 잘 안 먹힐 것이다.
전문성이 높은 문헌일 수록 <천천히 읽어도 이해가 안 될 것>이다.
핵심은 천천히 읽어도 -> 이해도가 낮다는 부분이다.
속도가 아니라, 지식을 연결하는 방식을 못 찾아서 그렇다.
해결법은 단순하다.
경제시장 리포트에서 가장 많이 보이는 패턴 구조들을 통계적 순서대로 AI한테 정리해달라고 한다.
그 구조들부터 머릿 속에 사례와 함께 때려박는다.
그러면 구조화/계층화가 된다.
예시로 각 market이 다른 market과 어떤 관계구조를 가질 수 있는지를 압축한 스키마인데
통계적으로 많이 쓰이는 시장 관계 구조를 선별적으로 사례와 함께 배우면 된다.
이쯤되면 이 글 자체의 패턴이 보일 것이다.
패턴을 찾는 인지구조를 메타인지하는 구조가 있다.
<< 구조의 구조를 검증하고 목표 달성에 효율성이 어떠한지 인지처리 과정을 조율 >> 하는 메타인지적 유연성이 곧 학습을 가속화 시키는 진짜 도구라는 뜻이다.
그래서 글의 초반에 내가 << 문서를 학습할만한 가치에 맞춰 VoI를 판별해서 학습하라 >> 고 사전에 핵심 전제를 깔아둔 것이다.
이 구조의 구조를 보고 개입해서 사고과정을 조율하는 인지적 유연성이 없으면 학습 가속화에는 한계가 있다.
계속 한 문서를 붙잡고 눈알이나 빨리 굴리고 있는 거다.
- dc official App
작업기억공간 비우는 팁이 혹시 있니?
팁이 실제 적용될 때는 자잘하고 디테일한 스킬들을 훈련해내야 해서 그 양을 다 풀어서 쓰려면 오래 걸리니 큰 항목(방향성)으로 제시 해줄게. 1. 크게 보면 압축/요약하기고 2. 조금 더 구체화하면 MSR만 추출하기고(다른 지식과 연결될 수 있는 최소정보량만 추출하기) 3. chunk 하나의 크기를 엄청 키우는 것은 가능 4. Long Term Working Memory 사용(스키마 형성하기) 5. 공간작업기억과 청각작업기억 분리하기 핵심은 3번과 4번. 원래 3개 이상의 chunk였다 하더라도 빠르게 반복암송하거나 공통점으로 묶어버리면 하나의 chunk가 되어버리는데, 이렇게 하나의 chunk로 묶어버리는 스킬이 가장 중요. 예) 각기 다른 유형의 도넛이 9개 있으면 한 번에 담기 - dc App
어렵지만, 다크초코도넛과 뉴욕초코도넛, 화이트초코도넛은 모두 "초코도넛"이니 하나로 묶어버리고, 하나의 chunk로 인식한 후 이후에 필요할 때 구체화하는 정보를 연결시켜주는 형식. 이 스킬은 학제적 수준의 연구에서도 항상 적용시킬 수 있어. - dc App
@iq171 ADHD(182.219) 마찬가지로 스트로베리필드 도넛, 생딸기도넛도 묶어버리면 하나가 되고, 이런 식으로 빠르게 압축하면 9개 도넛도 초코, 딸기, 오리지널, 치즈도넛 이런 식으로 4가지가 되니 차후 인출에서 훨씬 유리해짐. 그 이후에 디테일을 붙혀나가는 워크플로우가 항상 기억 저장 및 학습 효율성을 증가시킴. - dc App
@iq171 ADHD(182.219) 그렇구만.. 혹시 연결을 해제하는 방법에 대해서도 생각해둔게 있니? 너가 말하듯 다크초코도넛, 뉴욕초코도넛, 화이트초코도넛을 초코도넛이라고 한세트로 만들어놨는데 이걸.. 연결이 잘못되었다고 여겨질때 이를 해제하는 방법
@ㅇㅇ(223.39) 이 질문은 재해석해야한다. 댓글이니 짧게 다시 말하면, "공통점을 묶은 상위 개념을 어떻게 효율적으로 부여하느냐"라는 질문인데, 이게 진짜 핵심 스킬임. 예시) 산불 확산 이해. 종속변수(관찰값)는 불의 확산률이고 독립변수(원인값)는 마른 나무의 수, 바람의 세기, 나무의 밀도 이 세가지라고 치자. WM용량 최적화를 위해 세 가지를 잘 묶는 상위개념을 찾는데 propagation rate, diffusion rate, cascade velocity, contagion dynamics 등의 후보들이 떠오름. 근데 이 후보들 다 공통점이 있음. Self-reinforcing propagation system이라는 공통점임. 즉, 산불 확산률을 증가시키는 변수들을 가장 잘 묶은 건 - dc App
@ㅇㅇ(223.39) self-reinforcing propagation system, 우리가 익숙한 용어로 positive feedback loop임. PFL = 결과가 원인을 더 강화시킨다. 예시로, 마이크가 스피커 근처에 가면 소리가 갑자기 위이이이잉하면서 커지는데 마이크(소리증폭기)에 들어가는 소리입력값이 바로 앞 스피커로부터 다시 들어오니 소리가 비선형적으로 증폭함 -> 위이이이잉 증폭. 이게 PFL임. 이게 산불 확산률의 독립변수들을 가장 잘 묶은 상위개념이고, 그 이유는 패턴이 유사한 다른 지식들로 전이가 잘됨. 즉, 다른 지식들과 연결성이 높아져서 "WM capacity 차지율"이 감소함. 그래서 패턴인식하면 정보조작능력이 상승(더 쉽게 느껴짐) - dc App
@ㅇㅇ(223.39) 문제는 처음부터 이걸 어떻게 떠올리느냐 에서 사람들이 이게 마법이 아니느냐 생각하지만, 마법이 아니라 이미 이런 패턴인식용 스키마가 형성되어 있어서 공통점들을 잘 묶는 상위개념을 더 효율적으로 빠르게 끌어올 수 있음. 핵심은 이 스키마를 형성하는 것임. 이 부분부터는 내용이 상당히 방대하고 본인 트레이닝을 해야함. 핵심은, 메타인지를 활용해서 계속 잘 묶였는지, 통일성이 별로 없는지 등을 판별하는 직관력, 즉, 그 눈을 길러야 함. - dc App
@ㅇㅇ(223.39) 그러므로, 해제는 어떻게 하는가? 초코도넛으로 압축파일 만들어놨으면 빠르게 풀어서 조작을 해야하는데, 푸는 방법은 쉽다. 그냥 디테일을 붙히면 된다. 디테일을 추가하고 파악할 수록 압축된 정보가 자연스럽게 풀림. 그래서 뼈대를 형성하되, 그 뼈대를 다시 살을 붙히는 식으로 정보를 조작해야 한다는 것임. 필요없는 정보는 과감하게 버리고, 목표달성에 필요한 정보만 붙들고 처리하는 능력이 WM Capacity 잘 극복하는 핵심 원리임. - dc App
@iq171 ADHD(182.219) 내가 말하는 부분은 뭐랄까.. 키보드의 자판을 두들길땐 아무런 의식이 작용하는 부분이 없이 손가락이 자동으로 내가 말하고자 하는 부분의 자모음으로 이동하는 부분이 있는데 생각에서도 이런게 있지 싶은거지.. 너가 말하는대로 생각의 어떤 스키마를 구성하고 이것을 맞다고 하고 이게 어느정도 자동화된 무언가로 되었을때 이 자동화의 해제 부분이 가능한가..?
@iq171 ADHD(182.219) 그게 궁금한거임.. 지금 우리가 어떤 글을 쓰면서도 뭐랄까.."초코도넛으로 압축파일 만들었으면.."같은식으로 특정 어순을 쓰게 되는데 이 어순은 우리가 인식하지 않아도 자동으로 어떤 어순으로 말하게 된단거임.."압축파일 만들었으면 초코도넛으로.."이런식으로 말하진 않는단거고.. 그게 자연스럽다고 인식하지 않다고 그냥 그렇게 하게됨..
@iq171 ADHD(182.219) 여기서 벗어날때 부자연스러움을 느끼는건지.. 어쩐지는 잘 모르겠지만 이를테면 문법적교육의 결과나 받아쓰기등의 어떤 행위들의 결과로 혹은 책을 반복하면서 읽고 이에 대한 패턴들이 내재화 되었다고 치자.. 근데 만약에 어떤 틀린 가정을 맞다고 판단하게 되었고 이게 내재화 되었을때.. 이걸 어떻게 해제할수가 있는가? 이거지 싶음..