Stable Diffusion

Stable Diffusion
Stable Diffusion
Тип	модель преобразования текста в изображение[вд], модель латентной переменной, диффузионная модель[вд] и модель глубокого обучения[вд]
Написана на	Python
Операционные системы	Linux, macOS и Windows
Первый выпуск	22 августа 2022
Последняя версия	3.5 (23 октября 2024);
Репозиторий	github.com/Stability-AI/…
Лицензия	Stability AI Community License[вд]
Сайт	stability.ai/stab… (англ.)
	Медиафайлы на Викискладе

Stable Diffusion (дословно «стабильная диффузия») — модель глубокого обучения, создающая изображения по текстовым описаниям^[англ.], с открытым исходным кодом^[2]. Выпущена в 2022 году компанией Stability AI и основана на методах диффузии^[англ.]. В основном используется для создания детальных изображений на основе текстовых описаний, хотя её также можно применять и для других задач, например дорисовывать наброски и редактировать исходные картинки^[3]. Разработана группой компаний CompVis в Мюнхенском университете. Кроме того, в разработке участвовали Runway, EleutherAI и LAION^[4]^[5]^[6]^[7].

Stable Diffusion — модель скрытой диффузии, своего рода глубокая генеративная нейронная сеть. Код и вес модели были открыты^[8]. Может работать на большинстве потребительских устройств, оснащенных графическим процессором с объёмом видеопамяти не менее 4 ГБ. Её появление ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney, которые были доступны только через облачные сервисы^[9]^[10].

В настоящее время наиболее распространены модификации: Stable Diffusion v1.0, Stable Diffusion XL и Stable Diffusion 3. Последняя третья версия построена на архитектуре DiT-трансформер^[11], в отличие от первых двух, имеющих в своей основе U-Net^[12].

См. также

Примечания

↑ https://stability.ai/news/introducing-stable-diffusion-3-5
↑ Stable Diffusion. — 2023-01-05. Архивировано 18 января 2023 года.
↑ Stable Diffusion: что за нейросеть, как работает, инструкция (рус.). РБК Тренды. Дата обращения: 10 марта 2024. Архивировано 10 марта 2024 года.
↑ Leaked deck raises questions over Stability AI's Series A pitch to investors . sifted.eu. Дата обращения: 20 июня 2023. Архивировано 29 июня 2023 года.
↑ Revolutionizing image generation by AI: Turning text into images . www.lmu.de. Дата обращения: 21 июня 2023. Архивировано 17 сентября 2022 года.
↑ Mostaque, Emad. Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen (англ.). Twitter (2 ноября 2022). Дата обращения: 22 июня 2023. Архивировано 20 июля 2023 года.
↑ Stable Diffusion Launch Announcement . Stability.Ai. Дата обращения: 6 сентября 2022. Архивировано 5 сентября 2022 года.
↑ Stable Diffusion Repository on GitHub . CompVis - Machine Vision and Learning Research Group, LMU Munich (17 сентября 2022). Дата обращения: 17 сентября 2022. Архивировано 18 января 2023 года.
↑ The new killer app: Creating AI art will absolutely crush your PC . PCWorld. Дата обращения: 31 августа 2022. Архивировано 31 августа 2022 года.
↑ Vincent, James. AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit . The Verge (16 января 2023). Дата обращения: 16 января 2023. Архивировано 9 марта 2023 года.
↑ Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (англ.). arxiv.org. Дата обращения: 28 июня 2024. Архивировано 28 июля 2024 года.
↑ Архитектура Stable Diffusion: Face ID, Lighting (рус.). habr.ru. Дата обращения: 28 июня 2024. Архивировано 28 июля 2024 года.

[_97bb0f4885c65ec1-1] ttps://stability.ai/news/introducing-stable-diffusion-3-5

[2] Stable Diffusion. — 2023-01-05. Архивировано 18 января 2023 года.

[3] Stable Diffusion: что за нейросеть, как работает, инструкция (рус.). РБК Тренды. Дата обращения: 10 марта 2024. Архивировано 10 марта 2024 года.

[sifted_financialtimes-4] Leaked deck raises questions over Stability AI's Series A pitch to investors . sifted.eu. Дата обращения: 20 июня 2023. Архивировано 29 июня 2023 года.

[lmu_lauch-5] Revolutionizing image generation by AI: Turning text into images . www.lmu.de. Дата обращения: 21 июня 2023. Архивировано 17 сентября 2022 года.

[6] Mostaque, Emad. Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen (англ.). Twitter (2 ноября 2022). Дата обращения: 22 июня 2023. Архивировано 20 июля 2023 года.

[stable-diffusion-launch-7] Stable Diffusion Launch Announcement . Stability.Ai. Дата обращения: 6 сентября 2022. Архивировано 5 сентября 2022 года.

[stable-diffusion-github-8] Stable Diffusion Repository on GitHub . CompVis - Machine Vision and Learning Research Group, LMU Munich (17 сентября 2022). Дата обращения: 17 сентября 2022. Архивировано 18 января 2023 года.

[pcworld-9] The new killer app: Creating AI art will absolutely crush your PC . PCWorld. Дата обращения: 31 августа 2022. Архивировано 31 августа 2022 года.

[10] Vincent, James. AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit . The Verge (16 января 2023). Дата обращения: 16 января 2023. Архивировано 9 марта 2023 года.

[11] Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (англ.). arxiv.org. Дата обращения: 28 июня 2024. Архивировано 28 июля 2024 года.

[12] Архитектура Stable Diffusion: Face ID, Lighting (рус.). habr.ru. Дата обращения: 28 июня 2024. Архивировано 28 июля 2024 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Искусственный интеллект
История	Вычислительные машины и разум Зима искусственного интеллекта Бум искусственного интеллекта Джорджтаунский эксперимент Дартмутский семинар Отчёт Лайтхилла Регламент ЕС Гонка вооружений в области искусственного интеллекта Холодная война за искусственный интеллект
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Генеративный ИИ Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Персональный искусственный интеллект Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Рэймонд Курцвейл Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG