DALL-E

DALL-E
DALL-E
Тип	нейронная сеть
Автор	OpenAI
Разработчик	OpenAI
Языки интерфейса	английский
Первый выпуск	5 января 2021 года
Сайт	openai.com/dall-e-2/
	Медиафайлы на Викискладе

DALL-E — нейронная сеть НКО OpenAI, созданная при финансовой поддержке Microsoft^[2], способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке^[3]^[4]. По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей^[5]^[6]^[7]^[8].

ИсторияПравить

Нейронная сеть DALL-E начала разрабатываться в 2018 году. В 2019 году OpenAI получила грант в 1 млрд $ от компании Microsoft на разработку инновационных технологий в сфере искусственного интеллекта^[2]. Первая версия нейросети была представлена сообществу 5 января 2021 года^[5].

6 апреля 2022 года была анонсирована DALL-E 2^[4]^[9]. В новой версии программы были доработаны алгоритмы, позволяющие создавать фотореалистичные изображения, а также редактор, позволяющий вносить правки во время работы приложения^[10]. Пример работы нейронной сети продемонстрировал журнал Cosmopolitan, который использовал DALL-E 2 для создания обложки для одного из выпусков своего журнала^[11].

АрхитектураПравить

DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных на английском языке и генерации на их основании изображения^[6]^[12]. Сама модель GPT-3 была разработана OpenAI ещё в 2018 году на основе архитектуры глубоких нейронных сетей Трансформер^[13]. Таким образом, DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обучаемая через интернет^[14].

Так, DALL-E сначала генерирует изображения в ответ на запрос, а CLIP (Contrastive Language-Image Pre-training), как отдельная модель, «осознаёт» и ранжирует полученные изображения^[5]^[6]. Сам CLIP был обучен на 400 миллионах пар изображений и текста, благодаря чему модель более-менее успешно определяет наиболее успешно подходящие изображения по запросу и публикует имеющиеся изображения по степени их схожести с текстовым описанием^[12].

Описание и характеристикиПравить

DALL-E способна генерировать изображения в самых разных визуализациях — от фотореализма до картин и эмодзи, передвигая и видоизменяя объекты на своих изображениях^[9]. Одна из способностей, отмеченная его создателями, заключалась в правильном размещении элементов дизайна в новых композициях без явных указаний: «Например, когда его попросили нарисовать Редис Дайкон, сморкающийся, потягивающий латте или катающийся на одноколёсном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах»^[15]. Факт реализма и прорыва в сфере ИИ отмечали различные авторитетные издания — Input^[16], NBC^[17], Nature^[18], Wired^[19], CNN^[20] и BBC^[21]. Особенно интересно для специалистов стал тот факт, что ИИ получил некоторые навыки визуального мышления, позволившие оному пройти тест Рейвена, созданный для оценки интеллекта людей^[22].

DALL-E характеризуется как устойчивая и крайне надёжная нейронная сеть для создания изображений различного плана^[6]. Сэм Шхед в репортаже для CNBC назвал изображения «интересными» и процитировал Нила Лоуренса, профессора машинного обучения Кембриджского университета, который назвал это «вдохновляющей демонстрацией способности этих моделей хранить информацию о нашем мире и обобщать его способами, которые для людей естественны». Шхед также процитировал Марка Ридла, доцента Технической школы интерактивных вычислений Джорджии, который сказал, что результаты демонстрации DALL-E показали, что он способен «согласованно сочетать концепции», и что «демоверсия DALL-E примечательна созданием иллюстраций, которые гораздо более связны, чем другие системы Text2Image, которые я видел за последние несколько лет»^[23]. BBC также цитирует Ридля, который сказал, что он был «впечатлён тем, что система могла сделать»^[21].

ПримечанияПравить

↑ https://www.openai.com/blog/dall-e/
↑ ¹ ² Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI (англ.). OpenAI (22 июня 2019). Дата обращения: 4 июля 2022. Архивировано 7 ноября 2020 года.
↑ Nicolás Rivero. The best examples of DALL-E 2’s strange, beautiful AI art (англ.). QUARTZ (11 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
↑ ¹ ² OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию и редактирует уже готовые (рус.). vc.ru (7 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
↑ ¹ ² ³ Will Douglas Heaven. This avocado armchair could be the future of AI (англ.). MIT Technology Review (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
↑ ¹ ² ³ ⁴ Coldewey, Devin. OpenAI’s DALL-E creates plausible images of literally anything you ask it to (англ.). TechCrunch (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 6 января 2021 года.
↑ Jordan Novet. A.I. software called DALL-E turns your words into pictures (англ.). CNBC (18 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
↑ Gary Marcus, Ernest Davis, Scott Aaronson. A very preliminary analysis of DALL-E 2 (англ.) // Cornell University. — 2022. — doi:10.48550. Архивировано 5 июля 2022 года.
↑ ¹ ² Jeremy Kahn. Move over, Photoshop: OpenAI just revolutionized digital image making (англ.). Fortune (6 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 10 апреля 2022 года.
↑ Hope Corrigan. Photographer uses DALL-E 2 AI to automatically edit images better than Photoshop (англ.). PC Gamer (1 июля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
↑ Gloria Liu. The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover (англ.). Cosmopolitan (21 июня 2022). Дата обращения: 4 июля 2022. Архивировано 3 июля 2022 года.
↑ ¹ ² Khari Johnson. OpenAI debuts DALL-E for generating images from text (англ.). VentureBeat (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (англ.) // OpenAI. — 2018. Архивировано 5 февраля 2021 года.
↑ S. Dent. OpenAI's DALL-E app generates images from just a description (англ.). Engadget (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 27 января 2021 года.
↑ Thom Dunn. This AI neural network transforms text captions into art, like a jellyfish Pikachu (англ.). BoingBoing (10 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 22 февраля 2021 года.
↑ Mehreen Kasana. This AI turns text into surreal, suggestion-driven art (англ.). Input (1 июля 2021). Дата обращения: 4 июля 2022. Архивировано 29 января 2021 года.
↑ Melanie Ehrenkranz. Here's DALL-E: An algorithm learned to draw anything you tell it (англ.). NBC (28 января 2021). Дата обращения: 4 июля 2022. Архивировано 20 февраля 2021 года.
↑ Emma Stoye. Tardigrade circus and a tree of life — January’s best science images (англ.). Nature (5 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 8 марта 2021 года.
↑ Will Knight. This AI Could Go From ‘Art’ to Steering a Self-Driving Car (англ.). Wired (26 января 2021). Дата обращения: 4 июля 2022. Архивировано 21 февраля 2021 года.
↑ Rachel Metz. A radish in a tutu walking a dog? This AI can draw it really well (англ.). CNN (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 1 июля 2022 года.
↑ ¹ ² Jane Wakefield. AI draws dog-walking baby radish in a tutu (англ.). BBC (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 2 марта 2021 года.
↑ Markowitz, Dale. Here's how OpenAI's magical DALL-E image generator works (англ.). TheNextWeb (23 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 23 февраля 2021 года.
↑ Sam Shead. TECH Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab (англ.). CNBC (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 16 июля 2022 года.

КнигиПравить

Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlin 2022, ISBN 978-3-940948-45-8.

[_04200a9170720b53-1] ttps://www.openai.com/blog/dall-e/

[:0-2] ¹ ² Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI (англ.). OpenAI (22 июня 2019). Дата обращения: 4 июля 2022. Архивировано 7 ноября 2020 года.

[3] Nicolás Rivero. The best examples of DALL-E 2’s strange, beautiful AI art (англ.). QUARTZ (11 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.

[:1-4] ¹ ² OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию и редактирует уже готовые (рус.). vc.ru (7 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.

[:2-5] ¹ ² ³ Will Douglas Heaven. This avocado armchair could be the future of AI (англ.). MIT Technology Review (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.

[:3-6] ¹ ² ³ ⁴ Coldewey, Devin. OpenAI’s DALL-E creates plausible images of literally anything you ask it to (англ.). TechCrunch (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 6 января 2021 года.

[7] Jordan Novet. A.I. software called DALL-E turns your words into pictures (англ.). CNBC (18 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.

[8] Gary Marcus, Ernest Davis, Scott Aaronson. A very preliminary analysis of DALL-E 2 (англ.) // Cornell University. — 2022. — doi:10.48550. Архивировано 5 июля 2022 года.

[:5-9] ¹ ² Jeremy Kahn. Move over, Photoshop: OpenAI just revolutionized digital image making (англ.). Fortune (6 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 10 апреля 2022 года.

[10] Hope Corrigan. Photographer uses DALL-E 2 AI to automatically edit images better than Photoshop (англ.). PC Gamer (1 июля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.

[11] Gloria Liu. The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover (англ.). Cosmopolitan (21 июня 2022). Дата обращения: 4 июля 2022. Архивировано 3 июля 2022 года.

[:4-12] ¹ ² Khari Johnson. OpenAI debuts DALL-E for generating images from text (англ.). VentureBeat (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.

[13] Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (англ.) // OpenAI. — 2018. Архивировано 5 февраля 2021 года.

[14] S. Dent. OpenAI's DALL-E app generates images from just a description (англ.). Engadget (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 27 января 2021 года.

[15] Thom Dunn. This AI neural network transforms text captions into art, like a jellyfish Pikachu (англ.). BoingBoing (10 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 22 февраля 2021 года.

[16] Mehreen Kasana. This AI turns text into surreal, suggestion-driven art (англ.). Input (1 июля 2021). Дата обращения: 4 июля 2022. Архивировано 29 января 2021 года.

[17] Melanie Ehrenkranz. Here's DALL-E: An algorithm learned to draw anything you tell it (англ.). NBC (28 января 2021). Дата обращения: 4 июля 2022. Архивировано 20 февраля 2021 года.

[18] Emma Stoye. Tardigrade circus and a tree of life — January’s best science images (англ.). Nature (5 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 8 марта 2021 года.

[19] Will Knight. This AI Could Go From ‘Art’ to Steering a Self-Driving Car (англ.). Wired (26 января 2021). Дата обращения: 4 июля 2022. Архивировано 21 февраля 2021 года.

[20] Rachel Metz. A radish in a tutu walking a dog? This AI can draw it really well (англ.). CNN (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 1 июля 2022 года.

[:6-21] ¹ ² Jane Wakefield. AI draws dog-walking baby radish in a tutu (англ.). BBC (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 2 марта 2021 года.

[22] Markowitz, Dale. Here's how OpenAI's magical DALL-E image generator works (англ.). TheNextWeb (23 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 23 февраля 2021 года.

[23] Sam Shead. TECH Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab (англ.). CNBC (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 16 июля 2022 года.

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[1]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]