About Past Issues Editorial Board

KAIST
BREAKTHROUGHS

Research Webzine of the KAIST College of Engineering since 2014

Fall 2024 Vol. 23
Computing

복잡한 시각 모달리티를 일관되게 편집하기

February 26, 2024   hit 3220

Consistent zero-shot visual editing across various and complex visual modalities using collaborative score distillation

확산 모델은 고정된 사이즈의 이미지 편집에서 놀라운 성능을 보여주었습니다. 그러나 이러한 기능을 비디오나 3D 장면과 같은 복잡한 시각 도메인으로 확장하는 것은 여전히 어려운 과제입니다. 이 연구는 확산 모델을 활용하여 복잡한 비주얼을 편집할 수 있는 통합된 접근 방식을 제시합니다.

 

 

 

AI 분야에서 텍스트-이미지 확산 모델은 창의적인 디지털 콘텐츠 제작에 있어 중요한 혁신입니다. 이 모델은 언어 문맥을 이해하고 복잡한 개념을 시각화하는 AI의 능력을 활용하여 주어진 자연어 설명에 따라 이미지를 합성하거나 조작하는 프로세스를 혁신적으로 변화시켰습니다. 사실적인 이미지를 생성하는 데는 큰 성공을 거두었지만, 그 사용 범위는 정지 이미지로 제한되어 있었습니다. 이러한 생성 기능을 비디오나 3D 장면과 같은 더 복잡한 시각적 양식으로 확장하려면 어떻게 해야 할까요? 여기서 문제는 각 시각적 양식에 대해 지정된 이미지 세트 간의 일관성을 보장하는 것입니다. 예를 들어 비디오 편집에서는 출력물이 시간적으로 일관성을 유지해야 하고 3D 장면 편집에서는 출력물이 뷰 일관성을 유지해야 하지만 이미지 전용 확산 모델에는 이러한 이해가 부족합니다.

 

 

그림 1. 제안된 방법의 개요. CSD는 이미지 세트 간의 샘플 간 관계를 고려한 동기식 최적화를 위해 스타인 변형 그라데이션 하강(SVGD)을 사용합니다. 이러한 방식으로 CSD는 파노라마 이미지, 비디오, 3D 장면과 같은 다양하고 복잡한 시각적 영역을 주어진 언어 명령에 따라 일관되게 편집하는 데 사용됩니다

 

 

복잡한 시각적 편집에서 일관성을 보장해야 하는 이 문제를 해결하기 위해 카이스트와 구글 리서치의 김수빈, 이경민 연구원을 포함한 카이스트와 구글 연구원들 일관성 있는 시각적 편집을 위한 협업 점수 증류논문을 작성하여 새로운 해결책을 제시합니다. CSD (협업 점수 증류) 로 알려진 이 방법은 모달리티별 데이터 세트를 사용하지 않고도 텍스트-이미지 확산 모델의 기능을 정적 이미지 이상으로 확장합니다. 이러한 혁신은 스타인 가변 그라데이션 하강 (SVGD) 프레임워크 내에서 이미지 집합을 입자로 간주함으로써 이루어집니다. 이러한 전략적 접근 방식은 이미지 세트 전체에서 생성적 선험을 동기화하여 증류하게 하며, 한 프레임에서 편집한 내용이 다른 모든 프레임에 일관되고 원활하게 반영되도록 합니다. 본질적으로 CSD는 다양한 시각적 양식에 걸쳐 일관되게 울려 퍼지는 편집의 조화로운 교향곡을 조율하는 지휘자 역할을 합니다.

 

다양하고 복잡한 편집 작업에서 유연성과 효과를 발휘하는 CSD의 실제 적용 사례와 결과는 주목할 만합니다. 파노라마 이미지 편집부터 비디오 편집, 3D 장면 조작에 이르기까지 CSD를 사용하면 주어진 언어 지시에 따라 다양하고 복잡한 시각적 양식을 제로 샷 방식으로 편집할 수 있습니다. 이 연구는 인공지능 분야에서 가장 권위 있는 학술 컨퍼런스 중 하나인 NeurIPS 2023에서 발표되었습니다.

자세한 내용: https://subin-kim-cv.github.io/CSD/