DALL-E
DALL-E — нейронная сеть НКО OpenAI, созданная при финансовой поддержке Microsoft[2], способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке[3][4]. По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей[5][6][7][8].
DALL-E | |
---|---|
Тип | нейронная сеть |
Автор | OpenAI |
Разработчик | OpenAI[1] |
Языки интерфейса | английский |
Первый выпуск | 5 января 2021 года |
Сайт | openai.com/dall-e-2/ |
Медиафайлы на Викискладе |
ИсторияПравить
Нейронная сеть DALL-E начала разрабатываться в 2018 году. В 2019 году OpenAI получила грант в 1 млрд $ от компании Microsoft на разработку инновационных технологий в сфере искусственного интеллекта[2]. Первая версия нейросети была представлена сообществу 5 января 2021 года[5].
6 апреля 2022 года была анонсирована DALL-E 2[4][9]. В новой версии программы были доработаны алгоритмы, позволяющие создавать фотореалистичные изображения, а также редактор, позволяющий вносить правки во время работы приложения[10]. Пример работы нейронной сети продемонстрировал журнал Cosmopolitan, который использовал DALL-E 2 для создания обложки для одного из выпусков своего журнала[11].
АрхитектураПравить
DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных на английском языке и генерации на их основании изображения[6][12]. Сама модель GPT-3 была разработана OpenAI ещё в 2018 году на основе архитектуры глубоких нейронных сетей Трансформер[13]. Таким образом, DALL-E представляет собой мультимодальную реализацию GPT-3 с 12 миллиардами параметров, обучаемая через интернет[14].
Так, DALL-E сначала генерирует изображения в ответ на запрос, а CLIP (Contrastive Language-Image Pre-training), как отдельная модель, «осознаёт» и ранжирует полученные изображения[5][6]. Сам CLIP был обучен на 400 миллионах пар изображений и текста, благодаря чему модель более-менее успешно определяет наиболее успешно подходящие изображения по запросу и публикует имеющиеся изображения по степени их схожести с текстовым описанием[12].
Описание и характеристикиПравить
DALL-E способна генерировать изображения в самых разных визуализациях — от фотореализма до картин и эмодзи, передвигая и видоизменяя объекты на своих изображениях[9]. Одна из способностей, отмеченная его создателями, заключалась в правильном размещении элементов дизайна в новых композициях без явных указаний: «Например, когда его попросили нарисовать Редис Дайкон, сморкающийся, потягивающий латте или катающийся на одноколёсном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах»[15]. Факт реализма и прорыва в сфере ИИ отмечали различные авторитетные издания — Input[16], NBC[17], Nature[18], Wired[19], CNN[20] и BBC[21]. Особенно интересно для специалистов стал тот факт, что ИИ получил некоторые навыки визуального мышления, позволившие оному пройти тест Рейвена, созданный для оценки интеллекта людей[22].
DALL-E характеризуется как устойчивая и крайне надёжная нейронная сеть для создания изображений различного плана[6]. Сэм Шхед в репортаже для CNBC назвал изображения «интересными» и процитировал Нила Лоуренса, профессора машинного обучения Кембриджского университета, который назвал это «вдохновляющей демонстрацией способности этих моделей хранить информацию о нашем мире и обобщать его способами, которые для людей естественны». Шхед также процитировал Марка Ридла, доцента Технической школы интерактивных вычислений Джорджии, который сказал, что результаты демонстрации DALL-E показали, что он способен «согласованно сочетать концепции», и что «демоверсия DALL-E примечательна созданием иллюстраций, которые гораздо более связны, чем другие системы Text2Image, которые я видел за последние несколько лет»[23]. BBC также цитирует Ридля, который сказал, что он был «впечатлён тем, что система могла сделать»[21].
ПримечанияПравить
- ↑ https://www.openai.com/blog/dall-e/
- ↑ 1 2 Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI (англ.). OpenAI (22 июня 2019). Дата обращения: 4 июля 2022. Архивировано 7 ноября 2020 года.
- ↑ Nicolás Rivero. The best examples of DALL-E 2’s strange, beautiful AI art (англ.). QUARTZ (11 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
- ↑ 1 2 OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию и редактирует уже готовые (рус.). vc.ru (7 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
- ↑ 1 2 3 Will Douglas Heaven. This avocado armchair could be the future of AI (англ.). MIT Technology Review (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
- ↑ 1 2 3 4 Coldewey, Devin. OpenAI’s DALL-E creates plausible images of literally anything you ask it to (англ.). TechCrunch (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 6 января 2021 года.
- ↑ Jordan Novet. A.I. software called DALL-E turns your words into pictures (англ.). CNBC (18 июня 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
- ↑ Gary Marcus, Ernest Davis, Scott Aaronson. A very preliminary analysis of DALL-E 2 (англ.) // Cornell University. — 2022. — doi:10.48550. Архивировано 5 июля 2022 года.
- ↑ 1 2 Jeremy Kahn. Move over, Photoshop: OpenAI just revolutionized digital image making (англ.). Fortune (6 апреля 2022). Дата обращения: 4 июля 2022. Архивировано 10 апреля 2022 года.
- ↑ Hope Corrigan. Photographer uses DALL-E 2 AI to automatically edit images better than Photoshop (англ.). PC Gamer (1 июля 2022). Дата обращения: 4 июля 2022. Архивировано 5 июля 2022 года.
- ↑ Gloria Liu. The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover (англ.). Cosmopolitan (21 июня 2022). Дата обращения: 4 июля 2022. Архивировано 3 июля 2022 года.
- ↑ 1 2 Khari Johnson. OpenAI debuts DALL-E for generating images from text (англ.). VentureBeat (5 января 2021). Дата обращения: 4 июля 2022. Архивировано 5 января 2021 года.
- ↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (англ.) // OpenAI. — 2018. Архивировано 5 февраля 2021 года.
- ↑ S. Dent. OpenAI's DALL-E app generates images from just a description (англ.). Engadget (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 27 января 2021 года.
- ↑ Thom Dunn. This AI neural network transforms text captions into art, like a jellyfish Pikachu (англ.). BoingBoing (10 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 22 февраля 2021 года.
- ↑ Mehreen Kasana. This AI turns text into surreal, suggestion-driven art (англ.). Input (1 июля 2021). Дата обращения: 4 июля 2022. Архивировано 29 января 2021 года.
- ↑ Melanie Ehrenkranz. Here's DALL-E: An algorithm learned to draw anything you tell it (англ.). NBC (28 января 2021). Дата обращения: 4 июля 2022. Архивировано 20 февраля 2021 года.
- ↑ Emma Stoye. Tardigrade circus and a tree of life — January’s best science images (англ.). Nature (5 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 8 марта 2021 года.
- ↑ Will Knight. This AI Could Go From ‘Art’ to Steering a Self-Driving Car (англ.). Wired (26 января 2021). Дата обращения: 4 июля 2022. Архивировано 21 февраля 2021 года.
- ↑ Rachel Metz. A radish in a tutu walking a dog? This AI can draw it really well (англ.). CNN (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 1 июля 2022 года.
- ↑ 1 2 Jane Wakefield. AI draws dog-walking baby radish in a tutu (англ.). BBC (6 января 2021). Дата обращения: 4 июля 2022. Архивировано 2 марта 2021 года.
- ↑ Markowitz, Dale. Here's how OpenAI's magical DALL-E image generator works (англ.). TheNextWeb (23 февраля 2021). Дата обращения: 4 июля 2022. Архивировано 23 февраля 2021 года.
- ↑ Sam Shead. TECH Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab (англ.). CNBC (8 января 2021). Дата обращения: 4 июля 2022. Архивировано 16 июля 2022 года.
КнигиПравить
- Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlin 2022, ISBN 978-3-940948-45-8.