티스토리 뷰

많은분들이 그렇겠지만, 저는 알파고와 이세돌 9단의 대국으로 인해 딥러닝에대해 알게 되었고, 또 관심을 갖게 되었는데요. 맨날 제대로 한 번 공부해 보고싶다는 생각만 갖고 있다가, 지금만큼 공부하기 좋은 시기가 없을 것 같아서 강의와 책을 기반으로 공부 할 생각입니다.

머신러닝,딥러닝의 대가 및 전문가들은 어떤 관점을 취하고 어떤 생각을 갖고 있을까 너무 궁금한 상태였는데, 때마침, 알파고와 이세돌9단의 대국을 참관하기 위해 방한한 데미스 하사비스가 카이스트에서 '인공지능과 미래'라는 주제로 강연을 한 영상을 유튜브에서 찾을 수 있어서, 영상을 시청하며 글로 정리해 보았습니다.

저는 생물학 특히 뇌공학쪽에는 지식이 전무하다 싶이 하기 때문에 섣불리 말하기는 어렵지만, 개인적으로 뇌 역시 전기적 신호로 작동하는 만큼, 어떻게 보면 미래에는 컴퓨터로 뇌를 모사할 수 있지 않을까 생각 했었습니다. 하지만, 인간의 뇌를 하나의 작은 우주로 묘사 할 만큼 복잡하고 아직 인간에게는 미지의 세계인 만 큼, 우리가 뇌를 이해하기까지에는 아직 많은 시간이 필요하지 않나 싶습니다. 

그럼에도 데미스 하사비스의 접근 방식과, 그의 연구 결과들을 보면서 크게 감명 받았고, 그 가능성을 데미스 하사비스가 보여준 것 같아서 정말 감탄하면서 재밌게 본 것 같네요 ㅎㅎ 

시간이 있으신 분들은 영상으로 직접 보시는것도 추천 드립니다!


인공지능은 기계를 더 똑똑하게 만들고자 하는 과학이다.

 

딥마인드 미션 두가지

1. 지능을 근본적으로 해결하라

2. 그 지능을 이용하여 그 외의 모든 것을 해결하라

 

범용학습 알고리즘  - 전처리되지 않은 입력을 가지고 스스로 학습하는 알고리즘

기초데이터와 기초 경험만으로 자가 학습

 

범용적 인공지능(Artificial 'General' Intelligence) - flexible, adaptive, inventive.

(융통성이 있고 적응력이 있으며 창조적이다. -> 예상 밖의 상황에 대응할수 있도록 만들어져 있다.)

 

현재 인공지능이라고 불리는 것들은 활용범위가 좁은 인공지능이다.

보통은 모든 프로그램과 해결책이 기계에 입력 되어 있다.

-> 예상치 못한상황에 대처 불가 (프로그램에 없는 상황을 대처 할 능력이 없다.)

 

딥블루는 체스를 마스터 했지만 체스 외에는 아무것도 하지 못한다. 

(그 프로그램과 지식은 어떤 다른 게임에서나 게임 외 분야에서도 사용할 수 없었다.)

 

혹시 모르실 분들을 위해 :)
딥 블루는 1997년 IBM에서 개발한 체스 챔피언 카스파로프를 이긴 인공지능 체스 프로그램입니다.


프리즘을 통해서 보는 강화학습

 

에이전트 <--------------> 환경 (상호작용)

 

여기서 에이전트는 학습시킬 대상, 모델? 로 보면 될 것 같습니다. 즉 인간이 다양한 감각기관을 통해 환경을 수용 및 관찰 하고 그 결과를 토대로 지식을 습득하고 뭔가를 배우는것 처럼 말이죠. 에이전트도 결국 환경과 상호작용 하면서 무언가를 배우고 깨닫고 스스로를 변화시켜 나가면서 특정환경에 적합하게 변화해 갑니다.

 

감각기관을 통한 환경 관찰

모든 관찰내용이 불완전하고 잡음이 많다 (환경에 대한 완전한 관찰은 없다.)

 

<에이전트의 역할 두 단계로 구성>

1. 불완전하고 잡음이 많은 관찰내용을 토대로 환경에 대한 최대로 정확한 외부 환경에 대한 모델을 만드는 것 

2. 그 모델이 만들어 지면, 만들어진 외부 환경에 대한 모델을 이용해 현재 상황에서 가능한 모든 옵션중에 목표에 최대한 가깝게 갈 수 있는 최적화된 행동을 선택하는 것

 

무엇을 할지가 정해지면, 그 것을 실행에 옮기고 그것이 환경에 변화를 주거나 주지 않을 수 있지만, 거기서 또 새로운 관찰이 시작된다. 이는 실시간으로 이뤄진다. (== 실제 생명체의 학습방법)

 

동물도 인간의 뇌도 강화학습을 학습방법 중 하나로 사용한다. 

 

체화된 인지(Grounded cognition)  - 생각하는 기계는 감각운동의 사실성에 기반을 두고 있어야 하며, 이것이 유일하게 현실에 기반을 둔 진짜 생각을 만들 수 있는 방법이라는 것

 


인공지능 알고리즘을 시험해보는 플랫폼으로 게임을 쓰면 좋겠다고 생각했다.

 

이유:

1. 게임을 길게 시킴으로써 무한대의 연습 데이터를 만들게 되고, 검증편향도 없을 것이다.

(과거에는 인공지능 알고리즘을 만든 사람이 검증에도 참여했다. -> 아무리 객관적으로 평가하려 해도, 무의식적으로 자신의 알고리즘에 어울릴만한 검증방법을 만들게 됨)

2. 게임은 점수가 있기 때문에 에이전트가 점점 똑똑해지고 실력이 늘고 있다는 것을 아주 편리하게 알아 볼 수 있다.

 

관심분야: 인식하는데서 실행까지 가는데 있는 모든 과정 -> 심화강화학습 (딥러닝+강화학습)

 

처음으로 시도해본 게임: 아타리게임

 

딥러닝이 인지하는 절차를 밟고, 강화학습이 결정을 내려 실행에 옮긴다. 

 

  • 에이전트는 전처리 되지 않은 픽셀값만이 유일한 정보였다. (프레임당 3만개의 숫자 입력, 아타리 화면 크기 - 가로 200 세로 150픽셀)

  • 목표는 단 하나, 단순히 최고점수를 내는 것 

  • 에이전트는 처음에 어떻게 조종하는지에 대한 정보가 없고, 어떻게 점수를 내는지도 모르고 규칙도 모른다. -> 즉 모든것을 하나하나 배워가야 한다. (인간과 똑같은 조건, 어쩌면 규칙도, 어떻게 조종해야하는지 정보도 없으니, 더 열약한 환경...?)

  • 똑같은 하이퍼파라미터 세팅을 갖고 있는 시스템으로 모든 게임을 한다.

 

첫번째 게임. 스페이스 인베이더

연습경험이 없을때는 그냥 이것저것 해본다. 
게임 20시간 시킨 이후 관찰 : 놀라울정도로 잘한다.
게임을 하는 에이전트는 시간에 따른 정보의 변화에 대한 아주 정확한 모델을 갖고 있다. 

 

두번째 게임. 벽돌 깨기 게임

100게임 이후: 잘 못함, 공을 대부분 놓침
300 게임 이후: 점점 판을 공 쪽으로 움직여야 한다는것을 이해하기 시작
500 게임 이후: 옆에 구멍을 뚫어 공을 올려보내는등의, 최적의 전략을 짜가며 게임 

 

DQN(Deep Q-Network)

하나의 에이전트가 다양한 게임을 할 수 있었다. (서로 다른 규칙의 게임들에 적용 가능 <- 이점이 딥블루와 가장 큰 차이를 보이는 부분 아닐지??)

 

일반성을 가진 에이전트가 기초자료만 가지고 시행착오를 겪으며 스스로 학습하여 게임을 마스터 한것은 이번이 처음이다!

2편에서 계속..

댓글
링크
최근에 올라온 글
최근에 달린 댓글