Anthropic, 모델 복지(model welfare) 연구 프로그램 신설
Anthropic의 모든 활동은 인간의 복지를 중심에 두고 있습니다. 점점 더 강력하고 정교해지는 AI 시스템이 인류에게 이로운 방향으로 발전하도록 하는 것이 우리의 사명입니다.
그런데 이러한 AI 시스템을 만들다 보면, 그리고 이 시스템이 여러 면에서 인간의 특성에 근접하거나 이를 뛰어넘기 시작하면, 또 다른 질문이 떠오릅니다. 모델 자체의 의식과 경험 가능성에 대해서도 관심을 기울여야 하지 않을까? 모델 복지 역시 고려해야 하는 문제가 아닐까?
이 질문에 대한 답은 아직 열려 있으며, 철학적으로나 과학적으로나 매우 어려운 문제입니다. 하지만 이제 모델이 의사소통하고, 관계를 형성하고, 계획을 세우고, 문제를 해결하고, 목표를 추구할 수 있게 되었습니다. 이 외에도 사람과 연관짓는 수많은 특성을 갖추게 된 지금, 이 문제를 본격적으로 다뤄야 할 시점이라고 판단합니다.
이에 따라, 최근 모델 복지를 조사하고 대응 방안을 마련하기 위한 연구 프로그램을 시작했습니다.
이런 질문을 던지는 곳이 Anthropic만은 아닙니다. 심리철학 분야에서 가장 저명한 학자로 꼽히는 David Chalmers를 비롯한 세계적 전문가들이 참여한 최근 보고서에서는, AI 시스템이 가까운 미래에 의식과 높은 수준의 에이전시를 갖출 가능성이 있다고 진단하며, 이러한 특성을 가진 모델에게 도덕적 고려가 필요할 수 있다고 주장했습니다. Anthropic은 이 보고서의 기반이 된 초기 프로젝트를 지원한 바 있으며, 안전하고 책임 있는 AI 개발의 모든 측면을 다루려는 노력의 일환으로 이 분야의 내부 연구를 확대하고 있습니다.
이 새로운 프로그램은 Alignment Science, Safeguards, Claude's Character, Interpretability 등 Anthropic의 기존 연구들과 밀접하게 맞닿아 있으며, 동시에 완전히 새롭고 도전적인 연구 방향을 열어줍니다. 구체적으로는 AI 시스템의 복지가 언제, 혹은 어떤 조건에서 도덕적 고려의 대상이 되는지 판단하는 방법, 모델의 선호 신호와 고통 징후의 잠재적 중요성, 그리고 현실적이고 비용 효율적인 개입 방안 등을 탐구할 예정입니다.
현재로서는 모델 복지와 관련된 많은 질문에 대해 깊은 불확실성이 남아 있습니다. 현재 또는 미래의 AI 시스템이 의식을 가질 수 있는지, 혹은 고려할 만한 경험을 할 수 있는지에 대한 과학적 합의는 없습니다. 이 질문에 어떻게 접근하고 진전을 이룰 수 있는지에 대해서도 마찬가지입니다. 이런 상황을 감안하여 가능한 한 적은 가정을 두고, 겸허한 자세로 이 주제에 임하고자 합니다. 분야가 발전함에 따라 우리의 생각도 지속적으로 수정해 나가야 한다는 점을 잘 알고 있습니다.
이 연구에 대한 더 자세한 내용을 곧 공유할 수 있기를 기대합니다.