인간의 지각에서 이미지를 생성하는 AI의 능력으로 인해 인공지능(AI)과 인간의 창의성이 결합된 새로운 경계선에 우리는 지금 서 있다. 신경과학, AI, 시각 예술의 매력적인 교차점은 과학적 호기심뿐만 아니라 디지털 세계와 상호 작용하고 이해하는 방식에 있어 잠재적인 혁명을 의미한다.
사람이 본 것을 이미지로 생성하는 AI, 먼 미래에서나 가능할 것으로 생각되었다. 우리는 가끔씩 꿈이나 생각을 컴퓨터 화면에 나타낼 수 있는 것을 상상하기도 한다. 만일 범죄 드라마에서 증인이 본 광경을 이미지로 재생할 수만 있다면 범인에게서 증거를 찾아내는 일은 매우 쉬워질 것이다.
또한 우리가 일상생활에서 보는 많은 것들을 이미지로 재생할 수 있고 기록하면 오랜 시간이 지난 후에도 멋진 추억으로 남을 수가 있는 것이다. 이러한 꿈에서나 상상할 수 있는 현실이 멀지 않았다는 소식이 전해진다.
과학자들이 그것을 가능할 수 있도록 뇌 신경망과 컴퓨터를 연결하여 완벽하지는 않지만 실험에 성공했다는 연구가 나왔기 때문이다. 지금부터 알아 보자.
이미지를 생성하는 AI의 이론적 개념
이 기술의 핵심에는 고급 AI 알고리즘, 특히 생성적 대립 신경망(GANs, 머신 러닝의 한 영역에서 사용되는 알고리즘)과 합성곱 신경망(CNNs, 이미지 인식과 처리에 널리 사용되는 심층 신경망의 한 종류)이 있다.
이 AI 모델들은 방대한 이미지 데이터 세트에서 학습하여 복잡한 시각 패턴을 인식하고 재현할 수 있다.
서술적 입력이나 뇌파 데이터가 제시되면 이 AI 시스템들은 인간의 지각을 가능한 한 정확하게 반영하는 상세한 이미지를 구성할 수 있다.
뇌-컴퓨터 인터페이스(BCI)는 이 기술에서 중요한 역할을 한다. 그것들은 신경 활동을 AI가 이해할 수 있는 데이터로 포착하고 변환한다. 이는 시각 경험과 관련된 뇌 신호를 해독하는 정교한 신호 처리 기술과 머신러닝 모델을 포함한다.
AI 이미지 생성의 응용
가능한 응용 분야는 매우 넓고 다양하다. 예술가들과 디자이너들에게 이 기술은 상상 속의 개념을 직접 구현하는 새로운 방법을 제공한다.
의료 분야에서는 심각한 운동 장애를 가진 환자들에게 의사소통 통로를 제공할 수 있다. 또한, 엔터테인먼트와 게임 분야에서는 보다 몰입도 높고 개인화된 경험을 약속한다.
그러나 강력한 능력에는 큰 책임이 따른다. 누군가의 생각을 시각화하는 능력은 중대한 개인 정보 보호 및 윤리적 질문을 제기한다. 이 기술이 책임감 있고 동의하에 사용되도록 보장하는 것이 중요하다.
또한 딥페이크나 비동의 이미지 생성과 같은 잠재적 오용에 대한 우려도 있다.
AI 이미지 생성의 미래
이 분야의 주요 장벽 중 하나는 생성된 이미지의 정확성과 해상도이다. 생각에서 이미지로의 고도의 충실도 변환을 달성하기 위해서는 더욱 발전된 신경 해독 기술과 더 강력한 AI 모델이 필요하다.
컴퓨팅 요구 사항과 크고 다양한 데이터 세트의 필요성도 연구자들이 적극적으로 극복하고자 하는 도전 과제이다.
인간의 지각에서 AI가 생성한 이미지의 미래는 가능성으로 가득 차 있다. 개인화된 광고, 향상된 가상 현실 경험, 새로운 형태의 상호 작용 미디어에 대한 발전을 볼 수 있을 것이다.
이 기술은 또한 우리가 시각 정보를 처리하고 해석하는 방식에 대한 통찰을 제공하여 인간 인지에 대한 이해에 기여할 잠재력을 가지고 있다.
스테이블 디퓨전
스테이블 디퓨전(Stable Diffusion)은 텍스트에서 이미지를 생성하는 고급 AI 기술이다. 이 기술은 크게 두 부분 디퓨전 모델과 조건부 생성으로 나뉘어져 있다.
디퓨전 모델: 이 모델은 이미지를 점차적으로 구성하는 방식으로 작동한다. 먼저, 무작위 노이즈(잡음)로 시작하여 점차적으로 이를 구조화된 이미지로 변환한다. 이 과정은 여러 단계를 거치며, 각 단계에서 AI는 이미지의 품질을 점차 개선해 나간다.
조건부 생성: 스테이블 디퓨전은 사용자가 제공한 텍스트 설명을 기반으로 이미지를 생성한다. 이 텍스트는 이미지의 내용, 스타일, 색상 등을 지정할 수 있으며, 모델은 이를 바탕으로 관련 이미지를 생성한다.
스테이블 디퓨전의 주요 특징은 높은 해상도의 이미지 생성, 다양한 스타일과 주제에 대한 뛰어난 적응력, 그리고 복잡한 시각적 디테일을 효과적으로 캡처할 수 있는 능력이다. 이 기술은 예술, 디자인, 미디어 콘텐츠 생성 등 다양한 분야에서 활용될 수 있다.
그러나 이 기술에는 몇 가지 한계와 윤리적 고려 사항이 있다. 예를 들어, 저작권이 있는 이미지나 캐릭터를 복제하거나, 오해의 소지가 있는 이미지를 생성하는 것은 법적 또는 윤리적 문제를 일으킬 수 있다.
따라서 사용자는 이러한 기술을 사용할 때 책임감 있는 사용과 관련 법규를 준수해야 한다.
AI 이미지 생성의 실험
오사카 대학의 연구팀은 사람이 본 이미지를 그 사람의 뇌파 정보만을 사용하여 재생성할 수 있는 인공지능(AI) 시스템을 개발함으로써 비약적인 진전을 이루었다.
이 혁명적인 기술은 미세 조정 없이 스테이블 디퓨전 기법을 사용하여 인간의 인식과 인지 신경과학에 대한 새로운 지평을 열었다.
텍스트 입력으로부터 상세한 시각적 이미지를 생성하는 데 능숙해진 생성형 AI 프로그램은 많이 있다. 하지만 오사카 대학의 연구원들은 이를 한 단계 더 발전시켰다.
그들은 사람이 이미지를 볼 때 생성되는 뇌 활동을 기반으로 고해상도 이미지를 재구성하기 위해 AI를 활용했다. 이 방법은 우리가 인지 연구와 AI와의 상호작용을 이해하고 다루는 방식을 확장한다.
‘사이언스’와 같은 유명한 출판물에서 주목한 이 연구는 인기 있는 이미지 생성형 AI 프로그램인 스테이블 디퓨전 기법을 사용하여 뇌 활동을 시각적 표현으로 변환하는 방법을 자세히 설명했다.
이전의 생각-컴퓨터 이미징 실험과는 달리, 이번 연구는 처음으로 스테이블 디퓨전 기법을 사용했는데, 연구자들은 시각적 특징과 문장으로 설명된 의미적 특징을 명시적으로 사용했다.
기능적 자기공명영상(fMRI) 스캔은 참가자들이 다양한 이미지를 볼 때 수집된 뇌 패턴을 수집했다. 이 패턴은 수천 장의 사진 텍스트 설명과 연결되었다.
연구의 작동 원리
이 연구의 방법론은 뇌에서 활성화되는 영역에 따라 뇌내 혈류량이 달라진다는 원리에 기반한다.
예를 들어, 사람의 측두엽으로 흐르는 혈액은 물체, 사람, 주변 환경 등 이미지의 ‘내용’에 대한 정보를 해독하는 데 도움을 주며, 후두엽은 원근감, 규모, 위치 등과 같은 차원적 특성을 처리한다.
따라서 다른 이미지는 혈류의 흐름을 변화시켜 다른 뇌 활동을 유발한다.
이 연구에서는 4명의 참가자가 10,000개 이상의 이미지를 여러 번 보았고, 이 이미지들의 텍스트 설명과 키워드가 포함된 기존 온라인 fMRI 스캔 데이터 세트를 스테이블 디퓨전 과정에 제공했다.
이를 통해 AI는 뇌 활동을 시각적 표현으로 변환하는 방법을 ‘학습’할 수 있었다.
실험 결과와 의미
실험 중 한 참가자가 시계탑 이미지를 보았을 때, fMRI에 등록된 뇌 활동은 스테이블 디퓨전의 이전 키워드 훈련과 일치했고, 이 키워드는 기존 텍스트-이미지 생성기에 입력되었다.
후두엽의 구조와 원근 정보를 기반으로 시계탑을 더욱 세밀하게 재현하여 인상적인 최종 이미지를 완성했다.
이때 스테이블 디퓨전에 미세 조정 없이 기존 프로그램을 그대로 사용했다는 점이 주목할 만 하다.
연구팀은 이 기술이 ‘마음 읽기’가 아니라 인간의 지각과 뇌 활동 간의 관계를 조사한 것임을 강조합니다.
실험은 활동적인 지각 중인 뇌 활동을 기반으로 했으며, 회상이나 꿈을 꾸는 중의 뇌 활동은 일반적으로 해독 정확도가 낮아 이번 연구에서는 사용되지 않았습니다.
현재로서는 스테이블 디퓨전의 이미지 생성이 4명의 참가자의 이미지 데이터베이스로만 제한되어 있으며, 추가 실험을 위해서는 AI 훈련을 위해 더 많은 뇌 스캔이 필요하다. 사람마다 뇌 형태가 다르기 때문이다.
하지만 ‘사이언스’는 이 혁신적인 발전이 인지 신경과학을 비롯한 여러 분야에 엄청난 가능성을 보여주며, 앞으로 다른 종의 동물들이 주변 환경을 어떻게 인지하는지 연구하는 데 도움이 될 수 있음을 지적했다.
결론
인간의 지각에서 이미지를 생성할 수 있는 AI의 능력은 기술과 신경과학의 놀라운 발전을 증명한다. 이것은 인간의 창의력과 기계의 정밀함이 결합된 것으로, 예술, 과학, 그리고 의사소통 분야에서 전례 없는 영역으로의 문을 열고 있음을 의미한다.
이 새로운 길을 걸으며, 혁신을 윤리적 책임감과 균형 있게 조율하는 것이, 기술이 인간의 창의력과 표현을 증진시키는 미래를 형성하는 데 중요할 것이다.