인간의 지각에서 이미지를 생성하는 AI의 능력

인간의 지각에서 이미지를 생성하는 AI의 능력으로 인해 인공지능(AI)과 인간의 창의성이 결합된 새로운 경계선에 우리는 지금 서 있다. 신경과학, AI, 시각 예술의 매력적인 교차점은 과학적 호기심뿐만 아니라 디지털 세계와 상호 작용하고 이해하는 방식에 있어 잠재적인 혁명을 의미한다.

사람이 본 것을 이미지로 생성하는 AI, 먼 미래에서나 가능할 것으로 생각되었다. 우리는 가끔씩 꿈이나 생각을 컴퓨터 화면에 나타낼 수 있는 것을 상상하기도 한다. 만일 범죄 드라마에서 증인이 본 광경을 이미지로 재생할 수만 있다면 범인에게서 증거를 찾아내는 일은 매우 쉬워질 것이다.

또한 우리가 일상생활에서 보는 많은 것들을 이미지로 재생할 수 있고 기록하면 오랜 시간이 지난 후에도 멋진 추억으로 남을 수가 있는 것이다. 이러한 꿈에서나 상상할 수 있는 현실이 멀지 않았다는 소식이 전해진다.

과학자들이 그것을 가능할 수 있도록 뇌 신경망과 컴퓨터를 연결하여 완벽하지는 않지만 실험에 성공했다는 연구가 나왔기 때문이다. 지금부터 알아 보자.

이미지를 생성하는 AI의 이론적 개념

이 기술의 핵심에는 고급 AI 알고리즘, 특히 생성적 대립 신경망(GANs, 머신 러닝의 한 영역에서 사용되는 알고리즘)과 합성곱 신경망(CNNs, 이미지 인식과 처리에 널리 사용되는 심층 신경망의 한 종류)이 있다.

이 AI 모델들은 방대한 이미지 데이터 세트에서 학습하여 복잡한 시각 패턴을 인식하고 재현할 수 있다.

서술적 입력이나 뇌파 데이터가 제시되면 이 AI 시스템들은 인간의 지각을 가능한 한 정확하게 반영하는 상세한 이미지를 구성할 수 있다.

뇌와 컴퓨터 신경망의 연결
뇌와 컴퓨터 신경망의 연결

뇌-컴퓨터 인터페이스(BCI)는 이 기술에서 중요한 역할을 한다. 그것들은 신경 활동을 AI가 이해할 수 있는 데이터로 포착하고 변환한다. 이는 시각 경험과 관련된 뇌 신호를 해독하는 정교한 신호 처리 기술과 머신러닝 모델을 포함한다.

AI 이미지 생성의 응용

가능한 응용 분야는 매우 넓고 다양하다. 예술가들과 디자이너들에게 이 기술은 상상 속의 개념을 직접 구현하는 새로운 방법을 제공한다.

의료 분야에서는 심각한 운동 장애를 가진 환자들에게 의사소통 통로를 제공할 수 있다. 또한, 엔터테인먼트와 게임 분야에서는 보다 몰입도 높고 개인화된 경험을 약속한다.

그러나 강력한 능력에는 큰 책임이 따른다. 누군가의 생각을 시각화하는 능력은 중대한 개인 정보 보호 및 윤리적 질문을 제기한다. 이 기술이 책임감 있고 동의하에 사용되도록 보장하는 것이 중요하다.

또한 딥페이크나 비동의 이미지 생성과 같은 잠재적 오용에 대한 우려도 있다.

AI 이미지 생성의 미래

이 분야의 주요 장벽 중 하나는 생성된 이미지의 정확성과 해상도이다. 생각에서 이미지로의 고도의 충실도 변환을 달성하기 위해서는 더욱 발전된 신경 해독 기술과 더 강력한 AI 모델이 필요하다.

컴퓨팅 요구 사항과 크고 다양한 데이터 세트의 필요성도 연구자들이 적극적으로 극복하고자 하는 도전 과제이다.

인간의 지각에서 AI가 생성한 이미지의 미래는 가능성으로 가득 차 있다. 개인화된 광고, 향상된 가상 현실 경험, 새로운 형태의 상호 작용 미디어에 대한 발전을 볼 수 있을 것이다.

이 기술은 또한 우리가 시각 정보를 처리하고 해석하는 방식에 대한 통찰을 제공하여 인간 인지에 대한 이해에 기여할 잠재력을 가지고 있다.

스테이블 디퓨전

스테이블 디퓨전(Stable Diffusion)은 텍스트에서 이미지를 생성하는 고급 AI 기술이다. 이 기술은 크게 두 부분 디퓨전 모델과 조건부 생성으로 나뉘어져 있다.

디퓨전 모델: 이 모델은 이미지를 점차적으로 구성하는 방식으로 작동한다. 먼저, 무작위 노이즈(잡음)로 시작하여 점차적으로 이를 구조화된 이미지로 변환한다. 이 과정은 여러 단계를 거치며, 각 단계에서 AI는 이미지의 품질을 점차 개선해 나간다.

조건부 생성: 스테이블 디퓨전은 사용자가 제공한 텍스트 설명을 기반으로 이미지를 생성한다. 이 텍스트는 이미지의 내용, 스타일, 색상 등을 지정할 수 있으며, 모델은 이를 바탕으로 관련 이미지를 생성한다.

스테이블 디퓨전 구조
스테이블 디퓨전 구조

스테이블 디퓨전의 주요 특징은 높은 해상도의 이미지 생성, 다양한 스타일과 주제에 대한 뛰어난 적응력, 그리고 복잡한 시각적 디테일을 효과적으로 캡처할 수 있는 능력이다. 이 기술은 예술, 디자인, 미디어 콘텐츠 생성 등 다양한 분야에서 활용될 수 있다.

그러나 이 기술에는 몇 가지 한계와 윤리적 고려 사항이 있다. 예를 들어, 저작권이 있는 이미지나 캐릭터를 복제하거나, 오해의 소지가 있는 이미지를 생성하는 것은 법적 또는 윤리적 문제를 일으킬 수 있다.

따라서 사용자는 이러한 기술을 사용할 때 책임감 있는 사용과 관련 법규를 준수해야 한다.

AI 이미지 생성의 실험

오사카 대학의 연구팀은 사람이 본 이미지를 그 사람의 뇌파 정보만을 사용하여 재생성할 수 있는 인공지능(AI) 시스템을 개발함으로써 비약적인 진전을 이루었다.

이 혁명적인 기술은 미세 조정 없이 스테이블 디퓨전 기법을 사용하여 인간의 인식과 인지 신경과학에 대한 새로운 지평을 열었다.

텍스트 입력으로부터 상세한 시각적 이미지를 생성하는 데 능숙해진 생성형 AI 프로그램은 많이 있다. 하지만 오사카 대학의 연구원들은 이를 한 단계 더 발전시켰다.

그들은 사람이 이미지를 볼 때 생성되는 뇌 활동을 기반으로 고해상도 이미지를 재구성하기 위해 AI를 활용했다. 이 방법은 우리가 인지 연구와 AI와의 상호작용을 이해하고 다루는 방식을 확장한다.

‘사이언스’와 같은 유명한 출판물에서 주목한 이 연구는 인기 있는 이미지 생성형 AI 프로그램인 스테이블 디퓨전 기법을 사용하여 뇌 활동을 시각적 표현으로 변환하는 방법을 자세히 설명했다.

이전의 생각-컴퓨터 이미징 실험과는 달리, 이번 연구는 처음으로 스테이블 디퓨전 기법을 사용했는데, 연구자들은 시각적 특징과 문장으로 설명된 의미적 특징을 명시적으로 사용했다.

기능적 자기공명영상(fMRI) 스캔은 참가자들이 다양한 이미지를 볼 때 수집된 뇌 패턴을 수집했다. 이 패턴은 수천 장의 사진 텍스트 설명과 연결되었다.

연구의 작동 원리

이 연구의 방법론은 뇌에서 활성화되는 영역에 따라 뇌내 혈류량이 달라진다는 원리에 기반한다.

예를 들어, 사람의 측두엽으로 흐르는 혈액은 물체, 사람, 주변 환경 등 이미지의 ‘내용’에 대한 정보를 해독하는 데 도움을 주며, 후두엽은 원근감, 규모, 위치 등과 같은 차원적 특성을 처리한다.

따라서 다른 이미지는 혈류의 흐름을 변화시켜 다른 뇌 활동을 유발한다.

이 연구에서는 4명의 참가자가 10,000개 이상의 이미지를 여러 번 보았고, 이 이미지들의 텍스트 설명과 키워드가 포함된 기존 온라인 fMRI 스캔 데이터 세트를 스테이블 디퓨전 과정에 제공했다.

이를 통해 AI는 뇌 활동을 시각적 표현으로 변환하는 방법을 ‘학습’할 수 있었다.

실험 결과와 의미

실험 중 한 참가자가 시계탑 이미지를 보았을 때, fMRI에 등록된 뇌 활동은 스테이블 디퓨전의 이전 키워드 훈련과 일치했고, 이 키워드는 기존 텍스트-이미지 생성기에 입력되었다.

후두엽의 구조와 원근 정보를 기반으로 시계탑을 더욱 세밀하게 재현하여 인상적인 최종 이미지를 완성했다.

이때 스테이블 디퓨전에 미세 조정 없이 기존 프로그램을 그대로 사용했다는 점이 주목할 만 하다.

연구팀은 이 기술이 ‘마음 읽기’가 아니라 인간의 지각과 뇌 활동 간의 관계를 조사한 것임을 강조합니다.

실험은 활동적인 지각 중인 뇌 활동을 기반으로 했으며, 회상이나 꿈을 꾸는 중의 뇌 활동은 일반적으로 해독 정확도가 낮아 이번 연구에서는 사용되지 않았습니다.

아래 이미지는 AI 가 원본 이미지를 재생한 것이다
아래 이미지는 AI 가 원본 이미지를 재생한 것이다

현재로서는 스테이블 디퓨전의 이미지 생성이 4명의 참가자의 이미지 데이터베이스로만 제한되어 있으며, 추가 실험을 위해서는 AI 훈련을 위해 더 많은 뇌 스캔이 필요하다. 사람마다 뇌 형태가 다르기 때문이다.

하지만 ‘사이언스’는 이 혁신적인 발전이 인지 신경과학을 비롯한 여러 분야에 엄청난 가능성을 보여주며, 앞으로 다른 종의 동물들이 주변 환경을 어떻게 인지하는지 연구하는 데 도움이 될 수 있음을 지적했다.

결론

인간의 지각에서 이미지를 생성할 수 있는 AI의 능력은 기술과 신경과학의 놀라운 발전을 증명한다. 이것은 인간의 창의력과 기계의 정밀함이 결합된 것으로, 예술, 과학, 그리고 의사소통 분야에서 전례 없는 영역으로의 문을 열고 있음을 의미한다.

이 새로운 길을 걸으며, 혁신을 윤리적 책임감과 균형 있게 조율하는 것이, 기술이 인간의 창의력과 표현을 증진시키는 미래를 형성하는 데 중요할 것이다.

https://allsicence.tistory.com

양자 컴퓨터 시대가 온다

Leave a Comment