basic region prompt parsing

2023-11-05 15:46:37 -06:00 · 2023-11-05 15:46:37 -06:00 · 8ba9f3c0b7
parent 44851e3785
commit 8ba9f3c0b7
5 changed files with 31 additions and 19 deletions
--- a/api/onnx_web/diffusers/load.py
+++ b/api/onnx_web/diffusers/load.py
@ -267,12 +267,20 @@ def load_pipeline(
    # update panorama params
    if params.is_panorama():
        unet_stride = (params.unet_tile * (1 - params.unet_overlap)) // 8
-        logger.debug("setting panorama window parameters: %s/%s for UNet, %s/%s for VAE", params.unet_tile, unet_stride, params.vae_tile, params.vae_overlap)
+        logger.debug(
+            "setting panorama window parameters: %s/%s for UNet, %s/%s for VAE",
+            params.unet_tile,
+            unet_stride,
+            params.vae_tile,
+            params.vae_overlap,
+        )
        pipe.set_window_size(params.unet_tile // 8, unet_stride)

        for vae in VAE_COMPONENTS:
            if hasattr(pipe, vae):
-                getattr(pipe, vae).set_window_size(params.vae_tile // 8, params.vae_overlap)
+                getattr(pipe, vae).set_window_size(
+                    params.vae_tile // 8, params.vae_overlap
+                )

    run_gc([device])

--- a/api/onnx_web/diffusers/pipelines/panorama_xl.py
+++ b/api/onnx_web/diffusers/pipelines/panorama_xl.py
@ -303,7 +303,14 @@ class StableDiffusionXLPanoramaPipelineMixin(StableDiffusionXLImg2ImgPipelineMix

        # 3.b. Encode region prompts
        regions = parse_regions(prompt)
-        region_embeds: List[Tuple[List[np.ndarray], Optional[np.ndarray], Optional[np.ndarray], Optional[np.ndarray]]] = []
+        region_embeds: List[
+            Tuple[
+                List[np.ndarray],
+                Optional[np.ndarray],
+                Optional[np.ndarray],
+                Optional[np.ndarray],
+            ]
+        ] = []
        add_region_embeds: List[np.ndarray] = []

        for _top, _left, _bottom, _right, _mode, region_prompt in regions:
@ -322,9 +329,11 @@ class StableDiffusionXLPanoramaPipelineMixin(StableDiffusionXLImg2ImgPipelineMix
                current_region_embeds[0] = np.concatenate(
                    (current_region_embeds[1], current_region_embeds[0]), axis=0
                )
-                add_region_embeds.append(np.concatenate(
-                    (current_region_embeds[3], current_region_embeds[2]), axis=0
-                ))
+                add_region_embeds.append(
+                    np.concatenate(
+                        (current_region_embeds[3], current_region_embeds[2]), axis=0
+                    )
+                )

            region_embeds.append(current_region_embeds)

@ -492,7 +501,7 @@ class StableDiffusionXLPanoramaPipelineMixin(StableDiffusionXLImg2ImgPipelineMix
                )
                latents_view_denoised = scheduler_output.prev_sample.numpy()

-                if mode:
+                if mode == "replace":
                    value[:, :, h_start:h_end, w_start:w_end] = latents_view_denoised
                    count[:, :, h_start:h_end, w_start:w_end] = 1
                else:
--- a/api/onnx_web/diffusers/run.py
+++ b/api/onnx_web/diffusers/run.py
@ -43,8 +43,9 @@ def run_txt2img_pipeline(
    highres: HighresParams,
 ) -> None:
    # if using panorama, the pipeline will tile itself (views)
-    if params.is_panorama() or params.is_xl():
+    if params.is_panorama():
        tile_size = max(params.unet_tile, size.width, size.height)
+        logger.debug("adjusting tile size for panorama to %s", tile_size)
    else:
        tile_size = params.unet_tile

--- a/api/onnx_web/diffusers/utils.py
+++ b/api/onnx_web/diffusers/utils.py
@ -3,7 +3,7 @@ from copy import deepcopy
 from logging import getLogger
 from math import ceil
 from re import Pattern, compile
-from typing import Dict, List, Optional, Tuple
+from typing import Dict, List, Literal, Optional, Tuple

 import numpy as np
 import torch
@ -21,6 +21,7 @@ CLIP_TOKEN = compile(r"\<clip:([-\w]+):(\d+)\>")
 INVERSION_TOKEN = compile(r"\<inversion:([^:\>]+):(-?[\.|\d]+)\>")
 LORA_TOKEN = compile(r"\<lora:([^:\>]+):(-?[\.|\d]+)\>")
 WILDCARD_TOKEN = compile(r"__([-/\\\w]+)__")
+REGION_TOKEN = compile(r"\<region:(\d+):(\d+):(\d+):(\d+):(add|replace):([^\>])\>")

 INTERVAL_RANGE = compile(r"(\w+)-{(\d+),(\d+)(?:,(\d+))?}")
 ALTERNATIVE_RANGE = compile(r"\(([^\)]+)\)")
@ -446,7 +447,8 @@ def slice_prompt(prompt: str, slice: int) -> str:
        return prompt


-Region = Tuple[int, int, int, int, bool, str]
+Region = Tuple[int, int, int, int, Literal["add", "replace"], str]
+

 def parse_regions(prompt: str) -> List[Region]:
-    return []
+    return get_tokens_from_prompt(prompt, REGION_TOKEN)
--- a/api/onnx_web/server/hacks.py
+++ b/api/onnx_web/server/hacks.py
@ -2,16 +2,8 @@ import sys
 from functools import partial
 from logging import getLogger
 from os import path
-from pathlib import Path
-from typing import Dict, Optional, Union
 from urllib.parse import urlparse

-from optimum.onnxruntime.modeling_diffusion import (
-    ORTModel,
-    ORTStableDiffusionPipelineBase,
-)
-
-from ..torch_before_ort import SessionOptions
 from ..utils import run_gc
 from .context import ServerContext