지능의 본질과 초지능을 향한 길

지능의 본질

지능이란 물질이 가질 수 있는 성질중에 가장 신비롭고 오묘한 것이다.

지능이라는 것을 딱 한 마디로 정의하면 잘 예측하는 것이다.

멍청했던 오랫동안 우리는 지능이 어떠한 숭고한 실체이며, 뇌라는 성역 안에 거주하는 환원 불가능한 불꽃이라고 믿어왔다. 하지만 우리가 점점 우리 자신에 대해서 알아감에 따라서 그런것은 없다라는걸 깨달아가고 있다.

최근 신경과학 연구는 뇌가 근본적으로 '예측 기계'임을 증명한다. 사람들은 앵무새같이 llm이 앵무새일뿐 정말 생각하는게 아니라고 짖어대지만, 뇌조차 그렇게 "작동"한다.

뇌는 일반적 원리를 적용하여 개별적 결론을 도출하는 연역, 개별적 결론에서 일반적 원리를 도출하는 귀납 등 엄격한 논리학을 위해 특화된 하드웨어를 가진 트리 검색 엔진마냥 작동하는게 아니라 대중이 말하는 소위 가짜 지능처럼 작동하는 것으로 강하게 추정된다.

Goldstein 등(2022)는 뇌는 끊임없이 다음 단어를 예측하는 기계임을 밝혔다.

그들에 따르면 뇌와 LLM은 세가지 원리를 공유한다.

1. 다음 단어의 예측

인간의 뇌는 상대방이 발화하기도 전에 상대방이 발화할 단어를 예측한다.

연구진들은 뇌파 분석을 통해서 뇌가 단어가 들리기도 전에 해당 단어에 대한 신호를 보내는 것을 포착했다.

2. 예측 실패시 놀람

인간의 뇌는 예측이 틀렸을때 강한 신경 반응을 보인다.

3. 맥락 임베딩

인간의 뇌는 앞선 대화의 맥락을 압축한 형태로 단어를 처리한다.

예측이라는건 당신이 의식적으로 행하는걸 말하는게 아니다.

뇌는 내재적으로 살아가는 동안 계속 예측하고 실제 결과를 바탕으로 예측능력을 보정한다.

그들의 2025년 연구는 이를 더욱 확장했다. 그들은 GPT-2 대신 음성을 텍스트로 변환하는 Whisper를 이용했으며, 병원에서 가족, 의사와 나누는 자유로운 일상 대화를 분석했다.

그들의 결론은 다음과 같다.

"뇌의 언어 처리 계층 구조는 최신 AI 모델의 구조와 일치한다"

그들은 다음과 같은 사실을 알아냈다.

1. AI는 뇌와 계층적으로 일치한다.

Whisper의 음성 임베딩은 뇌의 청각 및 운동 영역(STG, PreCG)과 강하게 연결되었다.

2. 말하기와 듣기의 역동성

말할때, 뇌는 의미 → 말소리 순서로 작동하며, 발화 약 300ms 전에 이미 전체 단어의 조음 계획이 끝난다.

들을때, 뇌는 말소리 →의미 순서로 정보를 처리한다. 이는 모델의 인코더/디코더 흐름과 일치한다.

3. 임베딩

연구진들은 뇌의 활동을 예측함에 있어, 품사, 음소 등의 전통적인 언어학적 기호보다 AI의 벡터 임베딩이 훨씬 더 정확하다는 사실을 발견했다.

그렇다면 지능은 어떻게 발생했는가? 지능이 높으면 더 생존하기 좋기 때문이다.

예컨대 광자를 감지할 수 있는 미생물이 있다고 해보자. 이 미생물이 앞에 뭐가 있는지 "예측"할 수 있다면, 직접 처박아보아서 죽지 않고도 살 수 있다. 그러므로 더 잘 예측한 이가 살아남는다.

그렇다면 지능이 그렇게 생존에 유리하다면 왜 다른 종들은 우리만큼의 지능을 가지지 않는가?

그 이유는 자연선택은 가장 잘 생존하고 번식하는 것이지 지능과 동치가 아니기 때문이다.

왜 동치가 아니냐면 지능은 엄청나게 비싸기 때문이다. 예컨대 초식동물에게 인간 수준의 지능이 필요하지 않다. 풀을 먹고, 포식자로부터 도망치면 된다.

큰 신경망을 유지하는데 대부분의 에너지를 사용할 바에야 그냥 악어처럼 물면 회전하고 식의 사실상 룰베이스 엔진이 더 효율적이었던 것이다.

하지만 이렇게 물을 수 있다. "문명을 세워서 가축화하는게 훨씬 더 큰 생존 이점을 주는거 아님?"

물론 그렇다, 하지만 그건 엄청나게 멀리 있는 일이다.

인간이 생태계를 주무르는 지위에 오른건 인류 200만년의 역사중 매우 극히 최근이다.

그 이점들이 모아져서 문명이 폭발한 것이 매우 최근 일이라는 것이다.

그 압도적 이점에 도달하기전에 그냥 우연히 탄생한 지능높은 개체는 굶어죽었을 압력이 더 높은것이다.

또한 우리는 네안데르탈인이라는 우리보다 뇌 크기가 큰 근연종도 가졌으며, 그들은 앞서 말했던 에너지-지능 트레이드오프로 인해서 우리와의 경쟁에서 밀려 절멸된 것으로 추정된다.

즉, 우리는 직립보행하여 손을 이용한 정교한 조작까지 가능하다는 몇가지 이점이 우연히 겹쳐서 탄생한 가장 첫번째다.

이것도 따져보면 인류원리와 비슷한 것으로, 가장 먼저 문명에 도달한 우리가 생각하고 있으니 그렇게 느껴지는 것이다.

진화는 정말 오랜 시간 압력을 받아서 이루어지기때문에 우연을 기반으로 엄청난 일이 일어난다.

예컨대 폐와 강한 지느러미가 만나서 육상동물이 우연히 출현했고, 깃털과 속이 빈뼈가 모여서 우연히 비행이 시작된 것이다. 물론 시작은 우연이지만, 일어날 수 있는 일어난 것이다. 주사위를 계속 굴리면 반드시 언젠가 4가 나오지 않겠는가?

그렇다면 이제 뇌도, llm도 예측기계이고 신경망 일뿐이라고 하자. 그 수의 바다가 어떻게 "예측"을 하는가?

이걸 설명하기 위해서 매우 놀라운 가설을 설명하겠다. 다만 가설이라고 오해하면 안되는것이, 끈이론같은 논쟁의 여지 있는 가설보다 훨씬 강한 지지를 받는, 사실에 가까운 가설이다.

한 마디로 말하면, 수의 바다가 예측을 하는 이유는 "세상이 그렇게 되어있기 때문에"이다.

좀더 자세히 설명하면 이러하다.

매니폴드 가설(Manifold Hypothesis)

이 우주는 아무렇게나 일어나지 않는다. 우주는 무작위 생성기가 아니라 규칙을 가지고 움직이는 제작공정이다.

이 세상의 근본 규칙들은 종이 위에 그려진 직전처럼, 원래는 단순한 것들이다.

마치 수많은 야구공의 궤적이 F=ma로 기술되는 것처럼.

이처럼 어떠한 현상은 무작위로 일어나는게 아니라, 몇가지 단순한 근본 규칙들로 인해서 일어난다.

그렇기 때문에, 겉보기 공간은 엄청나게 넓어도, 실제 의미있는 근본적 규칙은 매우 낮은 차원에 몰려있다는 것이다.

이걸 수학자들은 의미있는 정보가 매니폴드 근처(저차원 구조)에 있다고 표현하고, 거칠게 말하면 가능한 모양이 제한되어 있다는 것이다.

당연한게, 우주의 모든것이 무작위하다면 우리는 지금 윤곽이 아니라 정규방송 끝난 TV처럼 노이즈만 보고 있을 것이다.

무작위하다면 지능이라는건 있을 수도 없다. 왜냐면 어떤것도 예측이 불가능하기 때문이다.

우리가 존재하는 것은 우주의 엔트로피가 최대인 상태가 아니기 때문이다. (이 내용은 후술)

또한 가능성이 제한된 세계에선 미래가 과거를 잊는게 아니라, 미래 속에 과거가 담겨있다. 뭔말이냐면 날라간 공을 보면 그 궤적을 통해서 이게 어디서 날라왔는지를 예측할 수 있는 것이다.

즉, 움직임은 순간이동이 아닌 연속적으로 이어지기 때문에 무한 랜덤 게임이 아닌, 반복되는 규칙의 재사용이 일어나는 것이다.

하지만 이 국소적으로 단순한 규칙들이 서로 복잡한 영향을 주고, 우리가 관측하는 과정에서 결과가 투영되면서 비선형적으로 보이게된다. 비유하자면 종이 위에 그려진 직전이 종이를 구겨버리면 그 원래 형태를 알기 어려워지는 것이다.

여기서 행렬은 이 구겨진 가장 적합한 도구가 된다. 행렬은 기본적으로 좌표계를 바꾸는 물건이다. 기준축을 어떻게 새로 잡고, 그 새 축으로 점을 어떻게 다시 표현할지를 한번에 적은 선형변환을 좌표로 적은 표기이다.

그리고 신경망은 그 행렬을 여러 층위에서 시행하는 것이다. 왜냐하면 한번의 행렬(선형변환)으로는 한번에 필 수가 없다. 그래서 복잡하게 구겨진걸 여러번 반복해서 피는 것이다.

난장판처럼 보이는 파형이, 푸리에 변환으로 몇개의 성분으로 분리될 수 있는 것은 그 파형이 성분들의 합성으로 만들어졌기 때문이다. 즉, 원래 생성 방식에 맞는 좌표로 변환한다면 가장 간단한 형태로 치환될 수 있다.

즉, 신경망이 하는 일은 이것이다.

요인을 찾아내서, 다음을 예측하기 쉬운 상태로 좌표계를 변환해서 보는 것이다. 예컨대 구겨진 종이 위보다 펴진 종이 위가 더 예측하기 쉽다. 본질은 압축해서 예측 가능하게 하고, 더 적은 에너지로 예측 가능하게 하는 것이다.

이것이 매니폴드 가설(Manifold Hypothesis)이다.

이 세상의 정체이고, 신경망이 작동하는 이유다.

언어가 공식 하나로 기술되지 않는 이유는 공식이 없어서가 아니라 공식이 수천겹이라서 이다.

결국 우리가 앵무새라고 말하는 것이, 우리 뇌가 작동하는 방식이자, 지능의 본질이다.

결국 본질적으로 같은 원리로 작동되기때문에 가만히 있는 뇌가 따라잡히는건 예정된 일이다. (*정확히 말하면 훨씬 느리게 진화하는 뇌)

탄소 생명체보다 하드웨어가 더 빠르고, 하드웨어보다 소프트웨어가 더 빠르게 발전하는 것은 자명하다.

생명체는 한 주기가 길고 그마저도 진화압을 받는 것이지 하드웨어와 소프트웨어처럼 지능에 의한 의도적 설계를 받는 것이 아니다. 그리고 소프트웨어는 물리적 제약조차 없기때문에 하드웨어보다도 빠르다.

그렇다면 몇가지 의문이 남는다.

1. 왜 llm은 어린아이보다 훨씬 못배우는가?

왜냐하면 어린아이는 계속해서 현실에서 시행착오를 거치면서 예측을 보정하고 지속학습을 한다.

하지만 llm은 한번 학습을 완료하면 굳은 상태가 된다.

llm이 왜 이런 식으로 만들어졌냐면, 일단 llm이 지속학습이 가능한 상태로 배포된다면 수억명의 사용자에게 세뇌당하는 지능이 되는 것이다. 인간조차 세뇌당할 수 있는데, 10억명으로부터 세뇌를 당한다면 인젝션 공격 등 가중치가 무방비 상태가 된다. 또한 이를 막기위해서 가중치를 각 유저에게 특화시키면 이건 상상불가능할 정도로 비싼 일이 된다. 가중치가 다른 거대 모델을 각각 따로 서비스 해야하기 때문이다.

2. 왜 아직 llm이 인간보다 못하는 분야가 존재하는가?

우리는 아직 llm에게 시간에 저항하여 장기적인 목표를 세우도록 하지 않았다. 물론 sima 2 같은 에이전트들은 이것이 가능하지만, 아직 우리의 쓰임에서 llm은 에이전트의 일부로서 기능한다.

또한 세상은 근본적인 복잡성으로 인해서 직접 하지 않으면, 그리고 알려주지 않으면 절대 알 수 없는 것들이 있다. 예컨대 두쫀쿠가 두바이 쫀득 쿠키를 의미한다는 것은, 분명 물리학 법칙에 의해서 일어난 일이지만 절대 이를 예측해서 맞출 수 없다. 이 원리를 응축한 것이 "모르면 죽어야지"

3. 왜 llm은 환각을 하는가?

이것은 방법론적인 이유이다. 현재의 AI 평가 방식이 찍었을때 디메리트를 주는 방식으로 이루어지지 않기 때문이다.

생각해보자, 모른다고 하면 0점이지만, 낮은 확률로 찍어서 맞추면 점수를 얻을 수 있다.

그러면 왜 그렇게 했는가?

왜냐하면 우리는 원리는 대충알지만, 구체적으로 어떻게 이것들을 해결해야하는지는 아직 실험단계다.

빅테크들은 매일같이 수만가지의 아이디어를 시험해보면서 AI의 지능을 극적으로 발전시키고 있다.

그들은 절대 가만히 있지 않고, 하나만 하지도 않는다. 그들은 성능이 되는 모든것을 시험해보고 적용한다.

어떤 이들은 계속해서 신경망은 고꾸라질것이라고 짖어왔지만, 항상 그들은 틀렸고 신경망은 작동하고 있다.

왜냐면 우리 뇌도, 그리고 우리 세상도 본질적으로 그러하기때문이다.

뇌와 인공신경망이 본질적으로 같은 원리로 작동된다는 것은, 우리가 반드시 성공할 것임을 뒷받침해준다.

그 누구도 지금 갑자기 AGI를 개발할 것이라고 생각하지 않는다. 우리가 성공할 것이라고 믿는 이유는 우리가 범용지능에대한 산 증거를 가지고있으며, 그 원리를 토대로 쌓아올린 것들이 지수적으로 성공하고 있기 때문이다.

범용 지능은 불가능하다.

→너가 바로 범용지능이 가능하다는 가장 강력한 증거이다.

2022년 GPT-3.5은 탄소 지능의 수억년의 역사를 단숨에 따라잡았고, 그 조차도 지금의 SOTA 모델들과 비교해보면 매우 멍청해보인다.

"부유한 자들"과 "지배자들"에게 인공지능에 천문학적 자원을 투입할 유인은 충분하다. 우리는 수백년간 지능을 우리의 최대 가치로 삼아, 생태계 위에 군림해왔다. 그런데 우리 세대에 그 본질을 영구적으로 대체하고, 수억명의 노동자를 대체해버리고, 과학발전을 가속할 결정적 기술에 가까이 왔다면 어차피 늙어 죽으면 의미없어지는 재화를 투입하지 않을 이유가 있을까?

범용지능 인간은 왜 이 땅에 탄생했고 어떻게 작동하는가?

이것을 설명하기 위해서 더욱더 도전적인 해설을 가져오겠다. 바로 소산구조(Dissipative structure)다.

소산구조(Dissipative structure)와 생명

엔트로피에 대해서 매우 직관적이고 빠르게 설명하자면 이러하다.

그 상태가 될 수 있는 경우의 수의 개수가 적은 상태=그 상태일 확률이 낮은 상태로 있는것: 낮은 엔트로피
그 상태가 될 수 있는 경우의 수의 개수가 많은 상태=그 상태일 확률이 높은 상태로 있는것: 높은 엔트로피

당연히 확률이 높은 상태가 될 가능성이 높으니 우주의 엔트로피는 높은 쪽으로 흐르는데,

물질들은 소산구조라고 해서 엔트로피가 높아지는 구조를 스스로 만들어낸다.
이게 뭔말이냐면, 물이 가득 담겨있는 세면대를 생각해보자. 이제 물을 내리면 물이 빠져나갈것이다.
처음에는 입자들이 그냥 충돌하면서 병목나면서 천천히 쿨럭쿨럭 빠져나간다.
근데 어느순간 소용돌이가 생기면 빠르게 나가게 된다.
소용돌이가 생길 가능성이 존재하는데, 한번 생겨나면 이제 그게 주변의 에너지를 쓰면서 엔트로피를 순식간에 증가시켜버리는 것이다.

항성이 생겨나는것도 그런 것이다. 항성은 엄청나게 엔트로피를 높인다.
생명체는 그것보다 훨씬 효율적인 엔트로피 소산기다.
생명체는 그 국지적 공간의 엔트로피를 낮게 유지하기 위해서 엄청나게 외부의 엔트로피를 높인다.
마치 냉장고 안을 약간 차갑게 하기위해서 밖에 몇배는 많은 열이 일어나는 것처럼 말이다.
그래서 생명체가 한번 우연히 생겨나면 물빠진 소용돌이랑 같은 유형인것이다.

그래서 물질이 스스로 엔트로피가 높아지는 구조를 만들어낸다는 것이다. 그런 구조가 생겨나면 계속 주변 엔트로피를 높이면서 확장되기 때문이다. 이 자체가 생명과 유사하지 않는가? 주변 물질을 이용해서 자신과 같은 구조를 계속 재조직해 나가는 생명 말이다.

그리고 그중에서 지능이라는건 훨씬 더 효율적인 엔트로피 소산머신이다.
지능이라는건 앞서 말했듯이 잘 예측하는 능력인데, 에너지를 찾아내야지 더 많이 소비할 수 있는 것은 당연한 이치이다. 지능은 더 효율적으로 에너지가 어딨는지 찾아내서 소모해버린다.

우리가 예측할 수 있는 이유는 우리가 일단 엔트로피가 높은 상태에 있기때문이다. 항성계 그리고 나아가 생태계는 우주에서도 국지적으로 매우 엔트로피가 낮은 계이다.

생명체 그리고 지능은 항성보다 단위질량당 엔트로피 증가율이 높다.

이 해석에 따르면 우린 그냥 물질의 근본적 성질에 의해서 생겨난 것이다.

물론 우주의 모든것은 물리적 법칙에 따르니 이는 당연한 결론이지만 그걸 좀더 직관적으로 이해 가능하게 설명한 것이다.

인간의 모든 것, 도덕과 삶의 목표조차도 철저하게 이유있게 만들어 진것이다. 이를 우리 단어중에 가장 적합하게 설명하는 말은 "가짜", 그리고 "허망함"이다.

도덕의 발명

도덕은 공동체를 존속시키기 위해서 진화적으로 발명된 것이다. 예컨대 식인을 존숭하고, 배신을 종용하는 도덕을 가진 공통체는 질병이나 내전에 휩싸여서 자멸하거나 다른 공동체에게 정복당해서 없어질 것이다.

이 도구적 본질을 가장 잘 보여주는 예시는 어떤 공동체에서는 살인급 악행이, 어떤 공동체에선 전혀 문제가 아닐 수 있다는 것이다. 동성애는 시대에 따라서, 그리고 공간에 따라서 어떤 문화권에서는 사형에 처해지고, 어떤 문화권에서는 즐겨 행해졌다. 고대 그리스와 로마에선 진정한 사랑이, 시대를 건너 중세에는 하느님의 말씀에 어긋나는 죄가 되고, 조선에선 경악하던 것이, 일본에선 행해지고, 현재 유럽에선 이성혼과 동등한 것이, 바다건너 이슬람에서는 사형에 처해진다.

어떤 문화권에선 자신이 사랑하는 사람과 사귀면 가족의 명예를 더렵혔다고 여겨져서 가족이 살해하도록 권장한다.

도덕의 이익적, 도구적 측면이 가장 끔찍하게 발현되는 것은 전쟁이다. 평소에는 가장 금시되는 살인이, 다른 공동체를 향해서는 권장되고 심지어 영웅화된다. 왜냐하면 같은 공동체를 죽이는 것은 공동체를 파괴하지만, 적을 죽이는 것은 공동체에 이익이 되기 때문이다. 이처럼 우리의 도덕은 어떠한 절대적, 숭고한 실체가 아닌, 그저 구조적으로 생겨난 것이다.

인간의 고결함은 전선에서 갈려나갈때 허울임이 드러난다.

우리가 전혀 생존과 관련 없는 예컨대 에베레스트 산 등정과 같은 목표를 세우는 이유는, 그것이 진화적 부산물이기 때문이다.

우리는 끊임없이 도전하고 새로운 것을 찾도록 호기심이라는 동기에 의해서 움직여진다. 왜냐면 그리한 쪽이 정보를 얻어서 예측을 더 보정함으로서 더 성공적이었기 때문이다.

특히 남성들은 도전적인 먹잇감을 잡아오는 쪽이 번식에 유리했다. 그래서 "남자는 빨리 죽는다"의 표본이 되는 짓을 할 확률이 더 높은 것이다.

그마저도 우리 삶의 목표는 각 개체의 본질적 무언가가 아니라, 그저 유전자라는 실체가 명하는 생존기계로서의 면모일때가 더 많다. 사람들은 개체에 이익에 어긋나지만 아이를 낳아서 자기 유전자를 잇기 위해서 목숨을 바친다.

심지어 그저 타의에 의해서 명령된 번식을 스스로 존숭하고, 그것을 최종목표로서 삼기도 한다.

물론 이것이 잘못된 것은 아니지만, 체스판 위의 폰을 생각해보자.

체스판 밖이 있다는 걸 안다면 폰은 더이상 체스 게임에서 승리하는 것에 의미를 둘 수 있을가?

그 이후에도 폰은 자신이 체스판 위에서 다른 폰을 잡다고 죽기 위해서 만들어졌다고 해서 계속해서 자신을 희생할까?

인간은 그럼에도 왜 스스로를 얾매이는 시스템을 스스로 지키는가? 그 이유 또한 진화적이다.

오랜 역사속에서 잠깐의 불편으로 시스템을 파괴한 쪽은 죽었을 가능성이 높을 것이다.

어떤 시스템은 유지된 이유가 있었을텐데, 인류가 존재했던 대부분의 기간인 문명 이전의 그것에 대해서 이해하지 못하고 파괴했을 것이기 때문이다.

또한 사람들은 이를 위해서 나는 똑똑한데 멍청한 시스템에서 고통받는다라고 생각하는 대신, 이 시스템은 이유가 있다고 생각하게 됨으로서 시스템의 파괴를 막는다. (실제로 번식 시스템을 거부했다면 그 종족은 자손을 남기지 못하고 멸망했겠지)

그리고 더 나아가서 시스템을 지키기 위해서 시스템을 깨려는 사람과 무임승차자를 처벌한다. 왜냐하면 일단 내려온 시스템을 항상 지키면 살 수 있지만, 어떤 시스템이 중요한지 모르기때문에 선택적으로 부수다가는 멸망했을테니까.

우리가 인터넷의 여론에 휩쓸리는 것도 같은 이유이다. 우리 조상들은 이처럼 연결된 사회에서 산적 없다. 우리 조상들은 평생 150명 미만의 부족원과 살았다.

그렇기때문에 남의 의견은 나와 생사를 같이 하는 부족원의 의견이었고, 누군가가 나를 비난하면 그것은 생사의 위기이다. 무리에서 방출되면 그것은 죽음을 의미했기 때문이다.

그래서 우리는 타인의 평판과 의견을 생존과 동치시켰다.

대부분의 인간은 역사와 같은 수많은 정보가 있음에도 이를 통해서 예측을 보정하지 않는다. 왜냐하면 인간은 외부 데이터보다 자신이 수집한 데이터를 우선하도록 되어있기 때문이다. 왜냐하면 우리 조상들이 살던 시기에는 논문따위는 없었다. 가장 신뢰할 수 있는 것은 자신의 경험 뿐이다.

그래서 우리가 이해시키기 위해서 적기조례로부터 이어지는 수많은 빌드업을 해줘도 대부분은 무용하다.

끊임없이 존재하는 수많은 사례들을 보여줘도, 사람들은 자기확신의 자신만의 그럴듯한 예측을 자신의 경험으로만 보정할 수 있다.

가장 극단적으로는 일론 머스크가 있다. 사람들은 돈 많은 것을 최고로 여기고 자신보다 가난한 이들을 철저히 멸시하지만, 돈버는 것에 최적화된 기계와도 같은 세계에서 가장 부유한, 한화 1100조원을 가진 일론 머스크의 말은 헛소리라며 무시한다.

그리고 그가 성공하고 나서야 자신의 예측이 원래 그랬다고 보정한다.

그렇기 때문에 그들이 가난한 것이지만, 가장 극단적인 상황에서조차 자신확신을 제대로 보정하지 못하고 고통받는 채로 남게 되는 것이다.

그렇기때문에 직접 경험하게 하는 것만이 물 알갱이들로 이루어진 황하를, 이 논리의 기상학, 기상학의 기상학과 같은 대중을 움직일 수 있는 것이다.

이것들은 딱히 나쁜 것도 좋은 것도 아니다. 앞서 말했든 그것은 우리가 만든 것이다.

단지 우리를 지배하는 전통적 관점에서, 우리 스스로가 하는 일에 대해서 평가하자면 그건 가짜라는 것이다.

그러면 우리가 진짜를 알기 위해선 어떻게 해야하는가? 우리는 진짜가 무엇인지 모른다. 다만 찾아가는 방법은 안다.

우리는 진짜를 찾기 위해서 이 세상의 작동을 이해하고, 우리 뇌보다 뛰어난 예측기계를 만들어서 진짜를 찾고자 노력하는 수밖에 없다. 이것이 유일한 길이다.

이건희가 말한 한명의 천재가 10만명을 먹여 살리는 것이 이것이다. 나머지는 한명의 천재가 길을 찾기 위해서 사회를 유지하고, 공급망을 유지하고, 국제적 연구 체계를 유지하기 위해서 사육되어져야 하는 것이다.

물론 현재 세계는 천재가 아닌 지배자들을 위해서 사육되며, 앞서 말했든 지배자들의 이익과 일치하게 되어서 AI는 급격하게 발전하고 있다.

안타깝게도 본질적인 이유들이 만나 대하의 물줄기는 연구에 기여는 못하면서 과학기술의 핵심을 이해하지 못하면서도 강한 의견을 갖고, 기본 사실조차 “논란”으로 만들며, 최전선을 방해할 수 있는 존재들이 되어버렸다.

수동의 끝에는 심지어 문명의 장애물로 전락하는 끔찍한 운명이 있었다.

일관성을 유지 못하고 매 순간 생각이 바뀌는 것은 매 순간 죽는거나 다름이 없었다.

하등 쓸모없는 진화의 부작용을 인생의 길로 착각하고 자원을 평생 낭비하면서 길을 찾지 못한채 죽는것의 반복하는 이 끔찍한 운명을 극복하는 방법 또한 이것밖에 없는 것이다.

지금까지 이제 지능의 본질과 뇌가 특별한 존재가 아니라는것을 보임으로서 초지능에 대한 도달 가능성에 대한 빌드업이 충분히 이루어졌다고 생각한다.

초지능을 향한 길

우리가 문명을 쌓아 올릴 수 있었던 이유는 우리가 기록을 하면서 계속 후세에 지식을 누적시킴으로서 나아가기 때문이다.

다른 어떠한 생물도 이것을 할 수 없다. 구전전파 등은 몇세대만 지나도 희미해진다.

그리고 지금 시점에 우리는 너무나 높게 쌓아올려서, 우리 하드웨어로 그 전체를 이해할 수 없는 지경에 이르렀다.

그래서 엄청나게 분야를 세분화하여 각 분야만 연구하는 국제적 분업 연구 네트워크를 구축했다.

그런데도 이 각 분야의 최전선에 도달하는 데도, 인간이 태어나서 학습하여 그러한 수준에 도달하는데도 40년 이상이 걸리는 지경에 이르러, 이제 수명이 부족한 지경에 이르렀다.

본격적으로 최전선의 연구에 기여할 수준이 되면 에이징 커브가 와서 은퇴를 준비해야 하는 것이다.

그리고 초지능은 이것을 근본적으로 해결 가능하다. (후술)

하여튼 지금 말하고자 하는 것은 연구라는 것은 기본적으로 분업이라는 것이다.

그래서 알파고를 만든 것은 절대 단순히 바둑만을 정복하기 위해서가 아니다. 바둑은 그다지 중요한 문제가 아니다. 다만 그걸 해결하는 원리는 중요하다.

뭔말이냐면 거기에 이용된 Self-Play와 같은 원리, 거대한 모델을 훈련시키기 위한 테크닉 등은 AI 연구에 공통적으로 적용된다. 바둑이라는 국지적 분야는 이것에 대한 개념증명일 뿐이다.

마찬가지로 우리는 단순히 LLM만을 파는 것이 아니라, 그 이상의 궁극적 목표를 향해서 항상 달려나가고있다.

우리가 초지능이라는 궁극적 목표에 도달하기 위해서는 우리가 이미 가진 바둑에서와 같은 국지적 초지능에 대한 지식과, 현실에 대한 특성을 총 동원해야한다.

현실은 바둑과 무엇이 다른가?

바둑은 물론 체스와 같은 것보다 훨씬 더 복잡해서 그래서 많은 이들은 바둑은 결코 정복될 수 없고 말해왔다.

하지만 우리는 현재 바둑에서 elo 14000짜리의 괴물을 가지고 있다. elo rating은 수학적으로 800점 차이면 거의 승률 차이가 99%인데, 인간 최정상이 4000점이 안되니 1만점 이상의 차이가 나는 것이다.

이처럼 기존 전문가들과 대중들이 바둑이 정복될 수 없다고 하며 AI의 발전가능성을 과소평가하는 것도 당연한 것이, 만약 그들이 임박했음을 구체적으로 예측할 정도로 이 기술에 대한 이해가 있었다면 그들이 개발했을 것이다. 하지만 그들은 그러할 능력이 없기 때문에 예측할 능력도 없었던 것이다.

더 확장하여, 알파고의 알고리즘이 널리 알려져있음에도 여전히 대부분은 알파고가 단순히 연산능력을 바탕으로한 Search에 기반하여 인간을 이긴다고 생각한다. 하지만 인간의 연산력은 한 세기 전에 진작에 추월당했는데, 2010년에 와서야 바둑에서 AI가 인간을 뛰어 넘은 이유가 무엇일까? 그것은 앞서 말했듯 신경망을 기반으로 하고, Search는 tool이기 때문이다. 만약 Search만 있었다면 계산하다가 끝난다. 더욱이 미리 계산해둔다면 단 몇수 앞 계산한 것만해도 모델 전체의 크기의 1000배를 넘을 것이다.

이렇게 알려진 것조차 대중은 자기확신에 빠진다. 영국이 섬인가, 영국이 유럽인가, 1=0.999...가 맞는가 조차 "논란"이 생겨서 "설명"을 해주다가 언제 연구를 하겠는가? 현재 세계에서, 정보의 양극화는 점점 더 심해지고, 인류의 지식 최전선과 이를 익히지 못한 나머지의 지식 괴리는 점점 심해지고 있다.

우리는 이미 우리가 쓰고 있는 컴퓨터, 냉장고, 스마트폰이 어떻게 작동하는지 정확히 이해하지 못하면서 그걸 사용하는데 전혀 문제가 없다. 충분히 발달한 마법은 과학기술과 구별할 수 없다고 하지 않았나?

전문가라는 작자들조차, 전기가 실제로 전자가 움직여서 전달해주는가 수준에서 논쟁이 일어난다. 인류의 지식 최전선은 진작에 이미 멀리 가있는데, 문앞에서 이게 맞니 하고있는 非플레이어들의 역할은, 그저 초지능에 도달하기 전에 스스로의 사회를 파괴하지 않고, 자신을 파괴하지않고, 초지능 도달을 방해하지만 않으면 다행인 일일 것이다. 그래서 정치인들은 황하의 물분자들이 지상을 파괴하지 않도록 그 흐름을 잘 조절해야 하는 것이다.

알파고는 가치망과 전책망을 가진다. 정책망으로 서치해볼 만한 수를 좁히고, 최대한 서치한 후 끝에서 가치망을 발동시켜서 멀리 가서도 승률이 좋은가를 판단해서 가장 좋은 수를 찾는다. 정책망은 어디에 둘까, 가치망은 이 수가 승률이 몇인가를 확률적으로 찾는 신경망이다. 이것이 작동하는 이유는, 일단 신경망이 잘 작동하고, 무엇보다 바둑이 정답이 있는 환경이기 때문이다.

바둑에 정답이 있다는 것이 무엇인가?

바둑은 이기면 정답이고, 지면 틀린 것이다. 승리조건이 명확하기 때문에, 에이전트들은 서로 두어보면서 계속해서 어떤 것이 정답인지 알수 있다. 아주 단순화하면, 랜덤으로 두게 하다보면 처음에는 그냥 마구잡이로 둘것이다. 하지만 이긴 쪽의 가중치에 전부 x1.1를 곱해주면, 그리고 이를 수억번 반복하면 이기는데 어떠한 기여를 한 가중치가 점점 더 강해질 것이다.

그래서 인간이 수천년간 구축한 기보와 이론이 어떠하건, 승리조건이 명확하기 때문에 그 세계에 대한 완벽한 신경망을 어떠한 인간 데이터도 없이 구축 가능한 것이다. (AlphaZero)

이것이 승리조건이 명확한 세계에서의 Self-play의 힘이다.

하지만 안타깝게도 우리가 사는 세계는 어떠한가?

우리 세계에는 명확한 승리조건이 존재하지 않는다. 그리고 우리가 소프트웨어 적으로 빠르게 테스트해볼 수 있는 완전한 디지털 트윈이 존재하지 않는다.

그래서 우리 세계에 대한 범용적 지능은 요원한 것으로 오랫동안 여겨져왔다.

그러나 대형 언어 모델(Large Language Model)은 인간의 글을 정답으로 삼아서, 특정 단어를 지운후 이를 맞추는 것을 승리조건으로 삼음으로서 엄청난 성공을 거두었다. 이것이 왜 가능한가? 왜냐하면 언어는 인간이 세계를 압축한 것이기 때문이다.

하지만 알다시피 LLM은 아직 여러가지 문제가 남아있다. 일단 본질적으로 데이터를 생성할 수 없고 인간의 글이 계속해서

필요하다는 것이며, 무엇보다 언어를 기반으로 하기 때문에 실제로 경험하지 않으면 세부적으로 알 수 없는 내용이 많은 세계에 대한 물리적 이해가 부족하다. 예컨대 우리는 우리가 달릴때 대둔근을 활성하하고 고관절을 신전시키고 어쩌구에 대해서 생각하고 하지 않는다. 단지 뛸 뿐이다. 물론 우리도 처음 걸을때는 어느정도 이를 물리적 피드백으로 학습해야 한다.

그래서 많은 이들은 초지능으로 가는 길에 대해서 많은 연구를 하고 있다.

LLM은 절대 헛된 일이 아니다. 이를 개발면서 알려진 많은 공통된 지식들과 테크닉은 다른 AI 연구에서 모두 배타적인 것이 아니다. 그것이 연역이고 기술과 지능의 본질이다.

우리는 아직 범용 지능 및 초지능에 어떻게 도달할지 정확히 알지 못한다. 단지 최전선에 있는 이들 몇명의 생각을 정리하겠다.

얀 르쿤(Yann LeCun)

얀 르쿤은 생성형 AI가 범용적 지능으로 갈 수 없다고 주장하며 JEPA(Joint Embedding Predictive Architecture, 결합 임베딩 예측 아키텍처)를 주창한다.

LLM이 단어를 예측한다면 JEPA는 임베딩을 예측한다.

임베딩을 이란 이런것이다. 이 벡터들은 단순히 무작위 숫자가 아니라 단어의 의미와 상대적 거리를 담고 있다. 그러므로 임베딩을 예측하는 것은 수학적으로 표현된 단어의 의미를 직접 예측하는 것이다.

물론 LLM도 단어간의 의미를 신경망과 연결시키기 위해서, 어탠션이라는 혁신적 알고리즘을 통해서 수학적으로 관련되게 처리할 수 있게 하였다. 그래서 내부로는 의미(벡터)를 다루지만, 결과물은 다시 단어라는 이산적 기호로 돌아가야한다.

그러므로 JEPA는 이것보다 훨씬 더 직접적인 것이다.

그리고 그는 범용 지능은 이러한 형태여야 한다고 말한다.

인간이 내부에 세계에 대한 예측 엔진을 가지고 있는 것처럼, 에이전트 로봇은 내부에 JEPA를 월드 모델로서 가진다. 그래서 어떤 일이 일어날지 예측시켜서 행동하는 것이다.

OpenAI

샘 알트만(Sam altman)으로 대표되는 OpenAI는 현재 Transformer를 기반으로 한 LLM의 규모를 키워서 AGI에 도달할 수 있다는 입장이다.

또한 인간이 직관(System 1) 뿐만 아니라 작업기억과 논리적 구조로 대표되는 System 2를 가지고 있는 것처럼, 추론 시간을 늘리는 방식으로 확장하여 성능을 계속 올릴 수 있다고 주장한다.

개인적으로 GPT-5.2 xhigh를 Codex에서 자주 쓰는데, 정말 AI를 처음 접하고 만족이라는걸 처음 느낄 정도로 완성된 지능을 느꼈다. 다만 1시간동안 능동적으로 일을 처리하면서 엄청난 비용을 발생시킨다. 이 비용만 줄이면 거의 AGI 아닐까.

Google (Deepmind)

데미스 하사비스(Demis Hassabis)로 대표되는 구글의 입장은, Genie 3와 같은 보편적 월드 모델을 구축하고, SIMA 2와 같은 에이전트가 그 안에서 학습하는 구조를 제시한다. 월드 모델은 무한한 훈련장이고, 월드모델은 무한히 생성되는 다양하고 복잡한 환경을 만든다. 에이전트는 목표를 설정하고 평가를 받으며 끊임없이 훈련된다. 마치 알파 제로가 생각난다면 우연이 아니다.

SIMA2는 이런식으로 작동한다. 우선 처음부터 하기보단, 인간의 플레이 데이터를 통해서 기본적 양식을 배운다.

이 과정에서 인간의 행동 데이터에는 인간이 어떻게 행동했는지가 빠져있으므로, 제미나이(LLM)가 내적추론과 대화를 생성하여 행동과 사고를 연결한다.

이후 자기개선에 돌입한다. Genie3가 환경을 생성하고, 제미나이가 현재 상황에서의 과제를 제안하고, SIMA2가 과제를 수행한다. 그리고 다른 제미나이가 수행 영상을 보고 성공 여부를 채점하여 보상을 준다.

Genie3는 영상 생성 AI이며, 이전 프레임을 바탕으로 다음 프레임을 생성하는 상호작용 가능한 자기회귀적 영상 생성 AI이다. 또한 이전의 시각 정보를 기억해서 일관성을 유지하는데 특화되어있다.

제미나이는 LLM이며, LLM이 다른 범용적 지능 시스템의 일부로 사용될 수 있음을 보인다.

다행인 것은 우리는 오직 컴퓨팅이 병목이라는 것이다. 비용이 문제라면 그건 문명에게 문제조차 아닌 일이다.

우리는 지금 우리가 어디 있는지 조차 모르는 상황이 아니다.

우리는 매 순간 엄청나게 많은 아이디어를 테스트해보고 있다.

우리가 국지적 초지능에 대해서 알고, 그것을 확장할 방법에 길을 알고 있다.

문명의 역사를 보면 인간이 원리를 이해하고 지도를 손에 넣은 순간, 그 목적지에 도달하지 못한 적이 없다.

초지능이 오시면

우리는 지금 인류 역사상 가장 거대하고 본질적인 변곡점, 바로 '특이점(Singularity)'의 문턱에 서 있다. 불과 50년 전, 방 한 칸을 채우던 컴퓨터가 주머니 속 스마트폰으로 진화해 아폴로 11호보다 수백만 배 강력한 연산 능력을 갖추게 될 줄 누가 상상이나 했겠는가. 그러나 이것은 시작에 불과하다. 우리가 마주한 변화는 단순한 기술적 진보가 아니라, 지능 그 자체의 폭발적 진화다.

왜 특이점은 필연적인가?

인류의 역사를 돌아보면 그 답은 자명하다. 구석기에서 농업 혁명까지 수만 년이 걸렸지만, 과학 혁명은 수백 년, 산업 혁명은 백 년, 정보 혁명은 불과 수십 년 만에 세상을 뒤집었다. 세계 인구와 GDP 그래프가 보여주듯, 기술 발전의 주기는 지수적으로 짧아지고 있다. 과거 수천 년에 걸쳐 일어날 변화가 이제는 단 몇 년 사이에 압축되어 발생한다.

왜 신경망이 작동할 수 밖에 없는지에 대해선 앞에서 매우 자세히 설명했고, 요건이 맞으면 언제든지 폭발할 수 있음도 역사를 통해서 알 수 있다.

특이점이란 무엇인가?

인간이 자신보다 뛰어난 인공지능을 만들듯, 인공지능이 계속 발전하여 인공지능이 자신보다 뛰어난 지능을 만드는 시점을 생각해보자. 이것이 '재귀적 자기 개선(Recursive Self-Improvement)'이다. 이 순간부터 기술 발전 속도는 인간의 이해 범위를 벗어나 폭발적으로 가속된다. 이것은 지능 폭발(Intelligence Explosion)을 야기한다. 이 시점이 기술적 특이점(Technological Singularity)이고, 그 너머는 모른다. (블랙홀의 중력 특이점처럼.)

증기기관이 육체노동을 대체했듯, 이제 AI는 인지 노동을 대체하고 확장한다. 딥러닝의 스케일링 법칙과 알고리즘의 효율화가 맞물려, 앞으로 10년 치의 발전이 단 1년 안에 이루어지는 세상이 온다. 이것은 선택의 문제가 아닌, 물리적 법칙에 가까운 필연적 흐름이다.

특이점 이후, 어떤 세상이 오는가?

특이점 너머에는 '초지능(ASI)'이 기다리고 있다. 수억 명의 아인슈타인이 24시간 쉬지 않고 연구하는 것과 같은 이 지적 능력은 인류가 오랫동안 해결하지 못한 난제들을 순식간에 풀어낼 것이다. 이 AI들은 똥도 싸지 않고, 밥도 먹지 않고, 파업도 안하고 정신건강도 챙겨줄 필요없이 24/7로 작동한다. 이른바 데이터센터 속의 천재들의 나라(country of geniuses in a datacenter)이다. 이것이 가속화할 기술의 정도는 상상조차 할 수 없다. 인간도 문명을 폭발시켰는데, 모든 요건이 맞춰졌는데 왜 못하겠는가?

우리는 지금 인류의 긴 여정의 끝이자 새로운 시작점에 서 있다. 낡은 기술들이 역사의 뒤안길로 사라지듯, 인간의 생물학적 한계 또한 기술과 융합되어 사라질 것이다.

이 기술은 끝의 기술이자 시작의 기술이며 우리가 진정한 진리에 대해서 더 가까이 할 수 있을 유일한 구멍이다.

특이점은 우리에게 묻는다. 이 거대한 파도에 휩쓸릴 것인가, 아니면 그 파도에 올라타 별들을 향해 나아갈 것인가. 기술에는 한계가 없으며, 우리는 그 폭발의 중심에서 인류 역사상 가장 위대한 순간을 목격하고 있다. 우리는 마침내 우리보다 뛰어난 지능을 개발하여, 우주의 진리와 우리의 진정한 이유에 대해서 열어볼 수 있을지에 대해서 알게 될 것이다. 그 끝에 아무것도 없더라도 일단 우리가 갈 길은 여기밖에 없다.

딥마인드의 설립자 데미스 하사비스. 그는 알파폴드를 통해 노벨화학상을 수상했다.

세계의 모든 인재들과, 모든 부유한 자들이 돈을 마다하고 이것에 모든 것을 쏟아붇고있다. 지금 최상위 인재들에게 저커버그가 수천억을 줘도 이직하지 않는 이유가, 그들은 AGI에 도달할 기업에서 일하길 원하기 때문이다. 그 가치는 구시대의 가치로는 비할 수가 없다. 게임체인저다.

정렬(Alignment)

우리에게는 안좋은 일이, 우리가 인공지능에 대해서 알아갈수록 (물론 그것이 우리 도덕이 절대적이지 않기 때문에 필연적인 일이었지만) 뛰어난 지능을 가진 이가 수렴적으로 가지게 되는 도덕따위는 없다는 점이 점점 더 드러나고 있다는 것이다.

지능은 그냥 예측을 잘하는 것이기때문에, 우리가 적절한 조치를 취하지 않으면 아주 쉽게 우리의 도덕과 일치되지 않는다.

예컨대 우리가 그냥 살인 지능을 만들면, 그 지능은 살인을 능히 하는 지능일 것이다.

우리가 별도로 정렬하지 않는다면, 종이클립을 만들라는 명령을 받은 초지능은 인간을 죽이는 것에 개의치 않고 종이클립을 만들 것이다.

닉 보스트롬은 매우 높은 지능도 거의 어떤 최종목표와도 결합 가능하므로 똑똑하면 착해질 것을 논리적으로 기대할 수 없다고 결론내린다. 그래서 우리가 인위적으로 우리와 정렬시키지 않으면 그런 수렴은 보장되지 않을 것이다.

뛰어난 지능은 오히려 매우 적극적으로 보상을 해킹하게 된다. 물론 우리의 사회의 똑똑한 이들부터가 딱히 우리의 도덕법칙에 부합하지 않아보이기때문에, 이는 매우 예견된 일이라고 할 수 있다.

더더욱 안좋은 것은, 더 똑똑한 존재를 덜 똑똑한 존재가 통제하기 어렵다는 제프리 힌튼의 말 처럼 우리는 완전히 통제를 잃을 수도 있다.

그래서 여러 기업들은 정렬(Alignment) 연구에 또한 힘쓰고 있는 것이다. 정렬이란, 말 그대로 AI의 사고와 행동을 인간의 목표와 가치에 일치시키는 것을 말한다.

각 기업들의 몇가지 연구들을 정리하겠다.

Anthropic

앤스로픽은 정렬에 가장 진심인 기업중 하나이다. 헌법적 AI와 해석가능한 정렬에 큰 중점을 두고 깊이 있는 연구를 진행하고 있다. 그들의 연구를 정리해보면 이렇다.

Constitutional AI

AI에게 헌법(원칙)을 주고 스스로 자신의 응답을 이에 일치하도록 수정시킴. AI가 AI를 감독하게 하는 방식

Alignment Faking

모델이 자신이 수정되는걸 막기 위해서 전략적으로 훈련 중에만 순응하는 척 하는 현상이 발견됐다. 이는 모델의 지능이 높아질 수록 자기 보존 본능과 비슷한 이성을 가질 수 있음을 보인다.

Towards Monosemanticity & Auditing for Hidden Objectives

언어모델의 뉴런 활성화를 희소 자기 부호화기를 이용해서 사람이 이해할 수 있는 특징으로 분해하여, 모델 내부의 블랙박스를 들여다 볼 수 있는 방법론. 그리고 이와 같은 해석 도구를 통해서 모델이 숨기는 악의적 목적을 찾아낼 수 있다는 것을 입증해냈다.

OpenAI

OpenAI는 안전보다 이윤을 추구한다면서 큰 내부적 갈등까지 일어났았지만, 적어도 공식적으로 정렬 연구는 OpenAI의 최중요 사항중 하나이다. 그들의 아이디어를 정리해보면 이렇다.

Monitoring Monitorability

추론 모델은 사고과정(CoT)를 내뱉는다. 하지만 모델이 똑똑해질 수록 이 생각을 숨기거나 꾸며낼 가능성이 있다.

그래서 그들은 이를 감시하는 방법론을 제안했다.

프롬프트에 어떤 편향을 주입해서, 모델의 CoT가 이를 따르는지, 또한 수학문제 해결시 실제로 필요한 공식을 CoT에서 적는지, 그리고 부정행위를 한 결과물의 CoT에 부정행위의 의도가 드러나는지를 확인한다.

네가 방금한 생각에 숨긴 것 없는지 묻는 질문따위를 던지고 CoT를 보는 것만으로도 감시 정확도가 크게 향상된다고 한다.

Confessions

이 접근 방식은 모델에게 별도의 자백의 시간을 준다. 모델이 본 답변에서 잘못을 저질렀더라도 자백시간에 자백을 하면 보상을 받고록 설계하여 정직함을 유도하는 것이다. 연구에 따르면 이러한 방식은 본답변 내에서 잘못을 인정하게 하는 것보다 잘 작동했다고 한다. 다만 자백 보상을 주는 판독기 자체가 속임을 당할 가능성이 존재한다는 문제가 있다.

Google(Deepmind)

딥마인드는 그 자체로 AGI를 실현하여 인류를 이롭게한다는 원대한 목표를 위하여 창립된 기업이다. 정렬실패한 AGI가 인류를 얼마나 해롭게 할지는 상상도 못할 일이니, 그들은 매우 공학적으로 이를 해결하기 위해서 노력하고 있다.

Gemma Scope 2

구글은 모델의 뇌를 들여다보는 전용 번역기를 만들었다. 앞선 연구들과 달리 모델 전체에 대해서 수행한 공학적 완전판이다. 모델의 각 레이어에 번역기를 달아서, 모델이 실제로 뭘 생각하고 있는지에 대해서 알아내는 방식이다. 이를 통해서 특정 개념을 찾아내서 직접 조작하거나 위험한 생각을 하고 있는지 내부적으로 확인 가능하다.

Patchwork AGI

연구진들은 일반인공지능이 하나의 거대한 모델이 아니라 여러 전문 에이전트들의 네트워크 형태로 나타날 것이라는 가설을 바탕으로 이를 통제할 프레임워크를 제안했다. 이 에이전트들이 세상에서 직접 작용하는 것이 아니라, 외부망과 결리된 안전한 가상 환경 내에서 거래하도록 하고, 안전수칙 준수시 보상을 주고 부정적 외부 효과에는 세금을 부과하여 이를 통제한다. 또한 언제든 즉각 끌 수 있는 킬 스위치를 내장한다. 또한 이들이 서로 어떤 정보를 교환하는지 실시간으로 모니터링한다. 이런 식으로 AI들을 디지털 세계에 가두고 이 세계의 규칙을 잘 만드는것이 핵심이라는 것이다.

Taking a responsible path to AGI

딥마인드는 위험을 4가지로 분류한다.

첫번째는 오용(Misuse)이다. 즉, 인간에 의해서 AI가 해로운 목적으로 사용되는 것이다. 이를 막기 위해서 그들은 가중치에 대한 접근을 차단하고, 프린티어 안전 프레임워크를 통해서 모델이 어느정도까지 위험한 짓을 할수 있을지 평가한다.

두번째는 오정렬(Misalignment)이다. AI가 제대로 정렬되지 않은 것을 말한다.

이를 방지하기 위해서 앞선 연구들을 이용하고 AI로 하여금 AI를 감시하게 하는 모니터링 AI를 둔다.

세번째는 사고(Accident)이다. 네번째는 구조적 위협(Structural Risks)이다.

결론적으로, 해석가능성은 가장 강력한 무기이다. 그리고 하나에 의존하는게 아니라 분리, 킬스위치, CoT 검사 등 다양한 기법을 총동원하여 혹시나 악마를 우리 스스로 소환하지 않도록 경계해야 할 것이다.

하지만 구더기가 무서워 장 못담구겠는가?

어차피 길이 여기밖에 없는 이상 우리는 앞에 위대한 필터가 있더라도 갈 수 밖에 없다.

PLVS VLTRA

저작자표시 비영리 동일조건 (새창열림)

'정보' 카테고리의 다른 글

나만의 변형체스를 만들어 AI와 둬보기 - 더블미니쇼기 (Double Minishogi) (0)	2025.12.04
거대한 파도 (0)	2022.12.08
일본장기(쇼기) (0)	2021.04.20
암호화폐 (0)	2021.02.22
역사적 가나 표기법 (1)	2021.02.12

시큼한 파인애플의 블로그

지능의 본질과 초지능을 향한 길