본문 바로가기
Tech Insights

DALL-E 3 - ChatGPT의 혁신적인 이미지 생성 AI

by Kudos IT Daily 2023. 10. 15.
반응형

DALL-E 3 - ChatGPT의 혁신적인 이미지 생성 AI

DALL-E 3, ChatGPT에 들어오다

안녕하세요, 오늘 포스팅도 ChatGPT 관련 내용으로 찾아왔습니다. ChatGPT와 LLM 관련 기술이 따라가기 버거울 정도로 급속도로 발전하고 있는 것 같습니다. 단순히 출시된 기술만 따라가려고 하는데도 어려울 정도입니다. 선택과 집중이 필요한 시점인 것 같네요. 오늘 소개해드릴 내용은 ChatGPT에 이번에 플러그인으로 추가된 파격적인 기능, DALL-E 3입니다.

 

DALL-E 3는 OpenAI에서 개발한 모델로 텍스트 프롬프트를 입력받아 이미지를 생성하도록 만들어진 AI 모델입니다. DALLE-3는 숫자 3이 의미하는 것처럼 DALLE-2에서 업그레이드된 이미지 생성 모델이라고 생각하시면 됩니다. DALL-E 3가 이전 모델에 비해 상당한 성능 향상이 있어 많은 개발자들의 관심을 받고 있습니다. 아래의 그림은 같은 프롬프트를 통해 생성한 DALL-E 2와 DALL-E 3의 생성 이미지입니다. 확실히 이전 모델에 비해 표현력의 섬세함이나 생성 이미지의 퀄리티면에서 향상된 것으로 보입니다.

 

DALLE-2 vs DALLE-3 생성 이미지 비교

 

DALL-E 3가 ChatGPT의 플러그인 기능으로 들어오게 되면서, 여러 텍스트 기반 이미지 생성 모델과 비교되고 있습니다. 특히, 대표적인 모델이 Midjourney인데요. Midjourney는 텍스트 프롬프트 기반으로 매우 현실성 있는 이미지를 생성하는 모델로 유명합니다. Midjourney는 기존에 뛰어난 이미지 품질을 가지고 있어 이미지 생성형 모델에서 압도적인 위치를 차지하고 있었는데요. 이번에 DALL-E3가 출시되면서 향후 시장 점유율에 어떤 변동이 있을지 이목이 집중되고 있습니다.

 

DALL-E 3는 현재 Midjourney에 비해 텍스트 프롬프트 입력에 대한 컨텍스트 처리에 뛰어나다고 평가받고 있습니다. 프롬프트를 통한 미세조정이 용이하고, 요청에 대해 원하는 이미지를 보다 잘 획득하는 것으로 평가되는 것으로 보입니다. Midjourney는 그에 반해 더 무작위로 생성되고 프롬프팅이 어렵다라고 얘기됩니다. 하지만, 생성되는 이미지의 현실성이나 품질면에서는 DALL-E 3와 비교했을 때, 비등하거나 앞서는 것 같습니다. 이에 따라, ChatGPT와 DALL-E 3를 활용해서 프롬프팅을 하고 해당 프롬프트를 활용해서 Midjourney를 통해 이미지를 생성하는 방법도 사용되는 것 같습니다.

 

ChatGPT의 DALL-E 3 기능 사용법

현재 DALL-E 3는 ChatGPT 플러그인과 마찬가지로 ChatGPT 플러스를 구독하는 사용자에게만 베타 기능입니다. 아래의 그림과 같이 GPT-4의 하위 항목에 DALL-E 3가 추가된 것을 보실 수 있습니다. 기능을 사용하기 위해서 DALL-E 3 버튼을 클릭해 보도록 하겠습니다.

 

그다음, 생성하고자 하는 이미지에 대한 프롬프트를 입력합니다. 저는 DALL-E 3를 활용해서 이번 블로그 포스팅에 활용할 썸네일 이미지를 생성해 달라고 부탁했습니다. 이후, 요청을 보내면 이미지 생성을 수행합니다. 아래의 그림은 DALL-E 3를 통해 생성한 결과입니다. 꽤나 쓸만한 이미지가 생성된 것 같습니다. 이미지 생성 모델에서 텍스트가 잘 표현되는 현상들이 종종 있는데, 텍스트로 깔끔하게 잘 표현된 것 같습니다.

 

이처럼 DALL-E 3를 활용하면 간단한 텍스트만 입력했을 뿐인데, 이미지를 쉽게 생성할 수 있습니다. 이번 포스팅에서는 썸네일 이미지를 제작했지만, DALL-E 3의 파급 효과는 엄청날 것으로 보입니다. 기존의 예술가나 디자이너는 간단한 텍스트를 통해 아이디어를 얻을 수 있고, 반대로 디자인에 능숙하지 않은 분들은 생성형 AI를 통해 원하는 이미지를 쉽게 생성해 낼 수 있습니다. 이렇듯 어떤 분야에 결합되느냐에 따라 저희가 원하는 것을 쉽게 시각화하거나 창조적인 컨텐츠를 생산하는데 활용될 수 있습니다. 

 

마치며

오늘은 ChatGPT에 새로 도입된 DALL-E 3에 대해 살펴보고, 간단한 사용을 통해 블로그 썸네일을 생성해 봤습니다. LLM에 대한 연구가 활발히 진행되면서 ChatGPT가 언어 생성뿐만 아니라 이미지를 생성하는 기능까지 수행하는 시대가 왔는데요. 텍스트를 통해 시각적인 요소를 이해하고 생성하는 모델이 개발이 되었다는 것이 신기할 따름입니다. 앞으로 텍스트뿐만 아니라 이미지를 생성하는 기능은 다양한 산업 분야에 혁신을 불러올 가능성이 있는 기술이라고 생각됩니다. 급격한 변화와 발전이 두렵기도 하지만 새로운 기능으로 앞으로 변화될 모습이 기대됩니다. 여러분도 이 혁신적인 기술을 통해 가치 있는 것을 만들 수 있기를 바랍니다.

 

오늘도 제 포스팅을 읽어주셔서 감사합니다. 더 좋은 내용으로 찾아올 수 있도록 하겠습니다.

반응형