Github๊ฐค ๋ฐ ์์๊ฐค์ ์๋ ์ย ์ฌ๋ ธ๋ ๊ฑด๋ฐ ๋จธ์ ๋ฌ๋์ ์ด๋ก ์ ๊ธฐ์ด๋ฅผ ์๊ฐํ๋ ๊ธ์.ย
์์ย Probably Approximately Correct (PAC) learning์ด๋ผ๊ณ ๋ถ๋ฅด๋ ์ด๋ก ์ธ๋ฐ,
ํ์ฌ ์กด์ฌํ๋ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ๋ก ๋ค ๊ธฐ๋ฐ์ ์ด๋ฃจ๋ ์ด๋ก ์ด๋ผ๊ณ ๋ณด๋ฉด ๋จ. Theoretical computer science์์๋ ๋๋ฆ ์ค์ํ ์ฃผ์ ์ค ํ๋์.
์ผ๋จ ์๋์ฒ๋ผ ์ฉ์ด๋ค์ ์ ๋ฆฌํ๊ณ
์ฉ์ด๊ฐ ์์ํ ์๋ ์์ง๋งย X,Y๋ ๊ฐ๊ฐ ์ค์ ๋ฐ์ดํฐ์ ์งํฉ, ๋ ์ด๋ธ ์งํฉ์ด๋ผ๊ณ ๋ณด๋ฉด ๋๊ณ
C๋ ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ถ์ ์๋ฒฝํ ํจ์๋ค c:X->Y์ ์งํฉ,ย H๋ ์ฐ๋ฆฌ๊ฐ ์ธ์ด ๊ฐ์ค์ ํตํด์ (์๋ฅผ๋ค์ด ์ ํํ๊ท, ๋ก์ง์คํฑํ๊ท, ๋ฅ๋ฌ๋ etc) ๋ง๋ค ์ ์๋ ํจ์๋ค h:X->Yย ์ ์งํฉ์ด๋ผ๊ณ ๋ณด๋ฉด ๋จ.
๊ทธ๋ผย ํ์ต (learning)์ด๋ผ๋ ๊ฐ๋ ์ ๋ ผ๋ฆฌ์ ์ผ๋ก ์ด๋ป๊ฒ ์ ์ํ ์ ์์๊น?
๋จ์ํ ๋ฐฉ๋ฒ์ ์ค์ ๋ฐ์ดํฐ X์ ๋ํด ์ฌ๋ฐ๋ฅธ ๋ ์ด๋ธ์ ์ฐพ์ ์ ์๋ ์๋ฒฝํ ํจ์ ์งํฉ C๋ฅผ ์ฐพ์ผ๋ฉด ๋จ.ย ์์ย consistency learning์ด๋ผ๊ณ ๋ถ๋ฆ.
๊ทธ๋ผ ๋ ํฌ๋งํ๊ฒย consistency learning์ ์ ์ํด๋ณด์.
์์ ์ ์๋ฅผ ์ด์ฉํด์ ์๋ฒฝํ ํจ์๋ค์ ์งํฉ C๊ฐ consistency model learnable ์ธ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ํธ๋ ์ด๋ ๋ฐ์ดํฐ S์ ๋ํด consistentํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ์ ์ฐพ์ ์ ์์.
๋ค๋ง ์์ consistency model๊ฐ ์ ์ฉํ๊ธฐ ์ํด์๋ ์ฐ๋ฆฌ๋ย ๋ชจ๋ ๊ฒฝ์ฐ์ ์์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ๋ค ๊ฐ์ง๊ณ ์๋ค๊ณ ๊ฐ์ ํด์ผํจ
๊ทธ๋ ์ง ์๋ค๋ฉด ์์ ํธ๋ ์ด๋ ๋ฐ์ดํฐ์ ๋ํ consistency๋ง์ ๊ฐ์ ํ ๋ชจ๋ธ (๊ทธ๋์ consistency model์)์ด๊ธฐ ๋๋ฌธ์, ํธ๋ ์ด๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ธํย unseen/test ๋ฐ์ดํฐ์ ๋ํด์ ์๋ฌด๊ฒ๋ ์ ์ ์์.
ํ์ง๋งย ํ์ค์์ ์ด๋ฌํ ๊ฐ์ ์ ์ฌ์ค์ ๋ง์ด ์๋จ.
ํ์ค์์๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ํธ๋ ์ด๋ ํ๋ ๊ฒฝ์ฐ๋ ๊ฑฐ์ ์๊ณ , ์ฐ๋ฆฌ๋ ์ฃผ์ด์ง ํ์ ๋ ํธ๋ ์ด๋ ๋ฐ์ดํฐ๋ก ๊ฐ์ค ์งํฉ (ํน์ ํ ๋ชจ๋ธ๋ค, ์ ํํ๊ท, ๋ก์ง์คํฑ, ๋ฑ๋ฑ)์์ ํจ์ h๋ฅผ ์ฐพ์๋ด์ผํจ.
๋ค์๋งํด์ ์ฃผ์ด์ง ํธ๋ ์ด๋ ๋ฐ์ดํฐ ์งํฉ S๊ฐ ์ฃผ์ด์ก์ ๋
๋ชจ๋ธ 1ย - ํธ๋ ์ด๋ ์๋ฌ 0
๋ชจ๋ธ 2 -ย ํธ๋ ์ด๋ ์๋ฌย 0
๋ชจ๋ธ 3 -ย ํธ๋ ์ด๋ ์๋ฌย 0
๋ชจ๋ธ 4 -ย ํธ๋ ์ด๋ ์๋ฌ 0.05
์ด๋ฐ ๋ชจ๋ธ๋ค์ด ์๋ค๊ณ ์น์
์ฐ๋ฆฌ๋ย consistency model๊ธฐ์ค์ผ๋ก๋ย ๋ชจ๋ธ4๋ย ๋ชจ๋ธ 1,2,3ย ๋ณด๋ค ์ข์ง ์๋ค๋ ๊ฒ์ ์ ์ ์์. ํ์ง๋ง consistency model์ unseen/test data ์ ๋ํด์ ์ด๋ ํ ์ ๋ณด๋ ์ ๊ณตํ์ง ์์.
๊ทธ๋ ๋ค๋ฉด ์์ย ๋ชจ๋ธ1, ๋ชจ๋ธ2, ๋ชจ๋ธ3ย ์ unseen/test ๋ฐ์ดํฐ์ ๋ํด์๋ ์๋ฒฝํ๊ฒ ์์ธกํ ์ ์์๊น?ย ๊ทธ๋ ์ง ์๋ค๋ฉด ์ฐ๋ฆฌ๋ unseen data์ ๋ํด์ย ๋ชจ๋ธ1,2,3์ ์ผ๋ฐํ ์ค๋ฅ๋ฅผ ๊ณ์ฐํ ์ ์์๊น?
Probably Approximately Correct learning์ ์์ ์ง๋ฌธ์ ๋ํ ํด๋ต์ ์ํด์ ๋ง๋ค์ด์ง ์ด๋ก ์.
์์ ์ ์๋ฅผ ๋ณด๋ฉด ์ผ๋ฐํ ์๋ฌ (unseen data์ ๋ํ ์๋ฌ)๊ฐ ์ผ์ ๊ธฐ์ค (epsilon) ์ด์์ผ ํ๋ฅ ์ด delta ๋ณด๋ค ๋ฎ์ ๊ฒฝ์ฐ ์ฐ๋ฆฌ๋ย PAC-learnable์ด๋ผ๊ณ ์ ์ํ ์ ์์.
์ฆ ์๋ฒฝํ ํจ์ c:X->Y์ ์งํฉ C๊ฐ PAC-learnable์ด๋ฉด ์ฐ๋ฆฌ๊ฐ ์ป์ ํจ์ h๊ฐ Probably (ํ๋ฅ ์ ์ผ๋ก) Approximately (๊ทผ์ฌ์ ์ผ๋ก) Correct (์ฌ๋ฐ๋ฅธ) ํจ์๋ผ๋ ๊ฒ์ ์ ์ ์์.
๋ํ ์์ ์ ์์์ ๋ฐ๋ก PAC-learning์ ์ฃผ์ ์ ๋ฆฌ ํ๋๋ฅผ ์ป์ ์ ์๋๋ฐ
์์ ์ ๋ฆฌ๋ฅผ ์ด์ฉํ๋ฉด ํธ๋ ์ด๋ ๋ฐ์ดํฐ์ ์, generalisation error ํ๋ผ๋ฉํฐ๋ค (m, epsilon, delta) ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ ์ ์์.
์ฆ, ํธ๋ ์ด๋ ๋ฐ์ดํฐ๊ฐ ๋ง์์ง๋ฉด ๋ง์์ง์๋ก exponentialํ๊ฒ ๋ชจ๋ธ์ ์๋ฌ bound๊ฐ ์ข์์ง๋ค๋ ๊ฒ์ ์ ์ ์์.
๋ค๋ง, ์์์์ ๋์จ ๊ฒ ์ฒ๋ผ ์์ PAC learning ์ ํธ๋ ์ด๋ ๋ฐ์ดํฐ์ ๋ํด์ ์๋ฒฝํ (ํธ๋ ์ด๋ ์๋ฌ 0) ๋ชจ๋ธ์ ๊ฐ์ ํ๊ณ ์์. ๊ทธ๋ ๋ค๋ฉด ํ์ค์์ ์ด๋ฌํ ์ผ์ด์ค๋ฅผ ์ฐพ์ ์ ์๋ ๊ฒฝ์ฐ๋ ์ด๋จ๊น? ๋ค์ ๋งํด ์์ ์ด๋ก ์ ์๋ฒฝํ ํจ์์ ์งํฉ C๊ฐ ๊ฐ์ค์งํฉ H์ ๋ถ๋ถ์งํฉ์์ ๊ฐ์ ํ๊ณ ์์, ๋ง์ฝ ๊ทธ๋ ์ง ์๋ค๋ฉด?
๋ํ ์์ ์ ๋ฆฌ1.3์ ๋ณด๋ฉด |H|, ์ฆ ๊ฐ์ค์งํฉ์ด ์ ํํด์ผํ๋ค๋ ๊ฒ์ ์ ์ ์์. ๋ง์ฝ ๊ฐ์ค์งํฉ์ด ๋ฌดํํ ๊ฒฝ์ฐ์๋ PAC learning์ ์ด์ฉํด์ ์๋ฏธ์๋ generalisation bound๋ฅผ ์ป์ ์ ์์๊น?
์ฒซ๋ฒ์งธ ์ง๋ฌธ์ย agnostic PAC learningย ์ด๋ก ์ผ๋ก,ย ๋๋ฒ์งธ ์ง๋ฌธ์ย Vapnik-Chervonenkis dimensionย ์ผ๋ก ์ด์ด์ง
์ง๊ด์ ์ฆ๋ช ํ๋ค๋๊ฑด ๋ฒ๊ฑฐ๋ก์ด์ผ์ด๊ตฌ๋ง - dc App
์ฐ์ฌใฑใฑ
pca๋ก ์๋ชป๋ณด๊ณ 5์ด ๋์ ๋ญ์ผ ๊ทธ๋ผ ใ ใ ใ