onnx-web/api/onnx_web/convert/diffusion/textual_inversion.py

from logging import getLogger
from os import makedirs, path
from typing import List, Optional, Tuple

import numpy as np
import torch
from onnx import ModelProto, load_model, numpy_helper, save_model
from transformers import CLIPTokenizer

from ...constants import ONNX_MODEL
from ...server.context import ServerContext
from ..utils import ConversionContext, load_tensor

logger = getLogger(__name__)


def detect_embedding_format(loaded_embeds) -> str:
    keys: List[str] = list(loaded_embeds.keys())
    if len(keys) == 1 and keys[0].startswith("<") and keys[0].endswith(">"):
        logger.debug("detected Textual Inversion concept: %s", keys)
        return "concept"
    elif "emb_params" in keys:
        logger.debug("detected Textual Inversion parameter embeddings: %s", keys)
        return "parameters"
    elif "string_to_token" in keys and "string_to_param" in keys:
        logger.debug("detected Textual Inversion token embeddings: %s", keys)
        return "embeddings"
    else:
        logger.error("unknown Textual Inversion format, no recognized keys: %s", keys)
        return None


def blend_embedding_concept(embeds, loaded_embeds, dtype, base_token, weight):
    # separate token and the embeds
    token = list(loaded_embeds.keys())[0]

    layer = loaded_embeds[token].numpy().astype(dtype)
    layer *= weight

    if base_token in embeds:
        embeds[base_token] += layer
    else:
        embeds[base_token] = layer

    if token in embeds:
        embeds[token] += layer
    else:
        embeds[token] = layer


def blend_embedding_parameters(embeds, loaded_embeds, dtype, base_token, weight):
    emb_params = loaded_embeds["emb_params"]

    num_tokens = emb_params.shape[0]
    logger.debug("generating %s layer tokens for %s", num_tokens, base_token)

    sum_layer = np.zeros(emb_params[0, :].shape)

    for i in range(num_tokens):
        token = f"{base_token}-{i}"
        layer = emb_params[i, :].numpy().astype(dtype)
        layer *= weight

        sum_layer += layer
        if token in embeds:
            embeds[token] += layer
        else:
            embeds[token] = layer

    # add base and sum tokens to embeds
    if base_token in embeds:
        embeds[base_token] += sum_layer
    else:
        embeds[base_token] = sum_layer

    sum_token = f"{base_token}-all"
    if sum_token in embeds:
        embeds[sum_token] += sum_layer
    else:
        embeds[sum_token] = sum_layer


def blend_embedding_embeddings(embeds, loaded_embeds, dtype, base_token, weight):
    string_to_token = loaded_embeds["string_to_token"]
    string_to_param = loaded_embeds["string_to_param"]

    # separate token and embeds
    token = list(string_to_token.keys())[0]
    trained_embeds = string_to_param[token]

    num_tokens = trained_embeds.shape[0]
    logger.debug("generating %s layer tokens for %s", num_tokens, base_token)

    sum_layer = np.zeros(trained_embeds[0, :].shape)

    for i in range(num_tokens):
        token = f"{base_token}-{i}"
        layer = trained_embeds[i, :].numpy().astype(dtype)
        layer *= weight

        sum_layer += layer
        if token in embeds:
            embeds[token] += layer
        else:
            embeds[token] = layer

    # add base and sum tokens to embeds
    if base_token in embeds:
        embeds[base_token] += sum_layer
    else:
        embeds[base_token] = sum_layer

    sum_token = f"{base_token}-all"
    if sum_token in embeds:
        embeds[sum_token] += sum_layer
    else:
        embeds[sum_token] = sum_layer


def blend_embedding_node(text_encoder, tokenizer, embeds, num_added_tokens):
    # resize the token embeddings
    # text_encoder.resize_token_embeddings(len(tokenizer))
    embedding_node = [
        n
        for n in text_encoder.graph.initializer
        if n.name == "text_model.embeddings.token_embedding.weight"
    ][0]
    base_weights = numpy_helper.to_array(embedding_node)

    weights_dim = base_weights.shape[1]
    zero_weights = np.zeros((num_added_tokens, weights_dim))
    embedding_weights = np.concatenate((base_weights, zero_weights), axis=0)

    for token, weights in embeds.items():
        token_id = tokenizer.convert_tokens_to_ids(token)
        logger.trace("embedding %s weights for token %s", weights.shape, token)
        embedding_weights[token_id] = weights

    # replace embedding_node
    for i in range(len(text_encoder.graph.initializer)):
        if (
            text_encoder.graph.initializer[i].name
            == "text_model.embeddings.token_embedding.weight"
        ):
            new_initializer = numpy_helper.from_array(
                embedding_weights.astype(base_weights.dtype), embedding_node.name
            )
            logger.trace("new initializer data type: %s", new_initializer.data_type)
            del text_encoder.graph.initializer[i]
            text_encoder.graph.initializer.insert(i, new_initializer)


@torch.no_grad()
def blend_textual_inversions(
    server: ServerContext,
    text_encoder: ModelProto,
    tokenizer: CLIPTokenizer,
    embeddings: List[Tuple[str, float, Optional[str], Optional[str]]],
) -> Tuple[ModelProto, CLIPTokenizer]:
    # always load to CPU for blending
    device = torch.device("cpu")
    dtype = np.float32
    embeds = {}

    for name, weight, base_token, format in embeddings:
        if base_token is None:
            logger.debug("no base token provided, using name: %s", name)
            base_token = name

        logger.info(
            "blending Textual Inversion %s with weight of %s for token %s",
            name,
            weight,
            base_token,
        )

        loaded_embeds = load_tensor(name, map_location=device)
        if loaded_embeds is None:
            logger.warning("unable to load tensor")
            continue

        if format is None:
            format = detect_embedding_format(loaded_embeds)

        if format == "concept":
            blend_embedding_concept(embeds, loaded_embeds, dtype, base_token, weight)
        elif format == "parameters":
            blend_embedding_parameters(embeds, loaded_embeds, dtype, base_token, weight)
        elif format == "embeddings":
            blend_embedding_embeddings(embeds, loaded_embeds, dtype, base_token, weight)
        else:
            raise ValueError(f"unknown Textual Inversion format: {format}")

    # add the tokens to the tokenizer
    num_added_tokens = tokenizer.add_tokens(list(embeds.keys()))
    if num_added_tokens == 0:
        raise ValueError(
            "The tokenizer already contains the tokens. Please pass a different `token` that is not already in the tokenizer."
        )

    logger.trace("added %s tokens", num_added_tokens)

    blend_embedding_node(text_encoder, tokenizer, embeds, num_added_tokens)

    return (text_encoder, tokenizer)


@torch.no_grad()
def convert_diffusion_textual_inversion(
    conversion: ConversionContext,
    name: str,
    base_model: str,
    inversion: str,
    inversion_format: str,
    base_token: Optional[str] = None,
    inversion_weight: Optional[float] = 1.0,
):
    dest_path = path.join(conversion.model_path, f"inversion-{name}")
    logger.info(
        "converting Textual Inversion: %s + %s -> %s", base_model, inversion, dest_path
    )

    encoder_path = path.join(dest_path, "text_encoder")
    encoder_model = path.join(encoder_path, ONNX_MODEL)
    tokenizer_path = path.join(dest_path, "tokenizer")

    if (
        path.exists(dest_path)
        and path.exists(encoder_model)
        and path.exists(tokenizer_path)
    ):
        logger.info("ONNX model already exists, skipping.")
        return

    makedirs(encoder_path, exist_ok=True)

    text_encoder = load_model(path.join(base_model, "text_encoder", ONNX_MODEL))
    tokenizer = CLIPTokenizer.from_pretrained(
        base_model,
        subfolder="tokenizer",
    )
    text_encoder, tokenizer = blend_textual_inversions(
        conversion,
        text_encoder,
        tokenizer,
        [(inversion, inversion_weight, base_token, inversion_format)],
    )

    logger.info("saving tokenizer for textual inversion")
    tokenizer.save_pretrained(tokenizer_path)

    logger.info("saving text encoder for textual inversion")
    save_model(
        text_encoder,
        f=encoder_model,
    )

    logger.info("textual inversion saved to %s", dest_path)
add none option to inversion menu 2023-02-22 05:50:27 +00:00			`from logging import getLogger`
use correct fn to make dirs 2023-02-22 04:50:59 +00:00			`from os import makedirs, path`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`from typing import List, Optional, Tuple`
add none option to inversion menu 2023-02-22 05:50:27 +00:00
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`import numpy as np`
add none option to inversion menu 2023-02-22 05:50:27 +00:00			`import torch`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`from onnx import ModelProto, load_model, numpy_helper, save_model`
			`from transformers import CLIPTokenizer`
feat(api): convert Textual Inversion weights 2023-02-21 05:07:16 +00:00
lint(api): use constant for model filename 2023-03-24 13:14:19 +00:00			`from ...constants import ONNX_MODEL`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`from ...server.context import ServerContext`
fix(api): load blending tensors onto CPU 2023-03-19 20:13:54 +00:00			`from ..utils import ConversionContext, load_tensor`
feat(api): convert Textual Inversion weights 2023-02-21 05:07:16 +00:00
			`logger = getLogger(__name__)`


fix(api): write tests for embedding/inversion blending 2023-10-07 00:04:48 +00:00			`def detect_embedding_format(loaded_embeds) -> str:`
			`keys: List[str] = list(loaded_embeds.keys())`
			`if len(keys) == 1 and keys[0].startswith("<") and keys[0].endswith(">"):`
			`logger.debug("detected Textual Inversion concept: %s", keys)`
			`return "concept"`
			`elif "emb_params" in keys:`
			`logger.debug("detected Textual Inversion parameter embeddings: %s", keys)`
			`return "parameters"`
			`elif "string_to_token" in keys and "string_to_param" in keys:`
			`logger.debug("detected Textual Inversion token embeddings: %s", keys)`
			`return "embeddings"`
			`else:`
			`logger.error("unknown Textual Inversion format, no recognized keys: %s", keys)`
			`return None`


			`def blend_embedding_concept(embeds, loaded_embeds, dtype, base_token, weight):`
			`# separate token and the embeds`
			`token = list(loaded_embeds.keys())[0]`

			`layer = loaded_embeds[token].numpy().astype(dtype)`
			`layer *= weight`

			`if base_token in embeds:`
			`embeds[base_token] += layer`
			`else:`
			`embeds[base_token] = layer`

			`if token in embeds:`
			`embeds[token] += layer`
			`else:`
			`embeds[token] = layer`


			`def blend_embedding_parameters(embeds, loaded_embeds, dtype, base_token, weight):`
			`emb_params = loaded_embeds["emb_params"]`

			`num_tokens = emb_params.shape[0]`
			`logger.debug("generating %s layer tokens for %s", num_tokens, base_token)`

			`sum_layer = np.zeros(emb_params[0, :].shape)`

			`for i in range(num_tokens):`
			`token = f"{base_token}-{i}"`
			`layer = emb_params[i, :].numpy().astype(dtype)`
			`layer *= weight`

			`sum_layer += layer`
			`if token in embeds:`
			`embeds[token] += layer`
			`else:`
			`embeds[token] = layer`

			`# add base and sum tokens to embeds`
			`if base_token in embeds:`
			`embeds[base_token] += sum_layer`
			`else:`
			`embeds[base_token] = sum_layer`

			`sum_token = f"{base_token}-all"`
			`if sum_token in embeds:`
			`embeds[sum_token] += sum_layer`
			`else:`
			`embeds[sum_token] = sum_layer`


			`def blend_embedding_embeddings(embeds, loaded_embeds, dtype, base_token, weight):`
			`string_to_token = loaded_embeds["string_to_token"]`
			`string_to_param = loaded_embeds["string_to_param"]`

			`# separate token and embeds`
			`token = list(string_to_token.keys())[0]`
			`trained_embeds = string_to_param[token]`

			`num_tokens = trained_embeds.shape[0]`
			`logger.debug("generating %s layer tokens for %s", num_tokens, base_token)`

			`sum_layer = np.zeros(trained_embeds[0, :].shape)`

			`for i in range(num_tokens):`
			`token = f"{base_token}-{i}"`
			`layer = trained_embeds[i, :].numpy().astype(dtype)`
			`layer *= weight`

			`sum_layer += layer`
			`if token in embeds:`
			`embeds[token] += layer`
			`else:`
			`embeds[token] = layer`

			`# add base and sum tokens to embeds`
			`if base_token in embeds:`
			`embeds[base_token] += sum_layer`
			`else:`
			`embeds[base_token] = sum_layer`

			`sum_token = f"{base_token}-all"`
			`if sum_token in embeds:`
			`embeds[sum_token] += sum_layer`
			`else:`
			`embeds[sum_token] = sum_layer`


			`def blend_embedding_node(text_encoder, tokenizer, embeds, num_added_tokens):`
			`# resize the token embeddings`
			`# text_encoder.resize_token_embeddings(len(tokenizer))`
			`embedding_node = [`
			`n`
			`for n in text_encoder.graph.initializer`
			`if n.name == "text_model.embeddings.token_embedding.weight"`
			`][0]`
			`base_weights = numpy_helper.to_array(embedding_node)`

			`weights_dim = base_weights.shape[1]`
			`zero_weights = np.zeros((num_added_tokens, weights_dim))`
			`embedding_weights = np.concatenate((base_weights, zero_weights), axis=0)`

			`for token, weights in embeds.items():`
			`token_id = tokenizer.convert_tokens_to_ids(token)`
			`logger.trace("embedding %s weights for token %s", weights.shape, token)`
			`embedding_weights[token_id] = weights`

			`# replace embedding_node`
			`for i in range(len(text_encoder.graph.initializer)):`
			`if (`
			`text_encoder.graph.initializer[i].name`
			`== "text_model.embeddings.token_embedding.weight"`
			`):`
			`new_initializer = numpy_helper.from_array(`
			`embedding_weights.astype(base_weights.dtype), embedding_node.name`
			`)`
			`logger.trace("new initializer data type: %s", new_initializer.data_type)`
			`del text_encoder.graph.initializer[i]`
			`text_encoder.graph.initializer.insert(i, new_initializer)`


feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`@torch.no_grad()`
			`def blend_textual_inversions(`
lint(api): name context params consistently (#278) 2023-04-10 01:33:03 +00:00			`server: ServerContext,`
make blend functions take tuples rather than split lists 2023-03-18 15:50:48 +00:00			`text_encoder: ModelProto,`
			`tokenizer: CLIPTokenizer,`
fix(api): write tests for embedding/inversion blending 2023-10-07 00:04:48 +00:00			`embeddings: List[Tuple[str, float, Optional[str], Optional[str]]],`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`) -> Tuple[ModelProto, CLIPTokenizer]:`
fix(api): load blending tensors onto CPU 2023-03-19 20:13:54 +00:00			`# always load to CPU for blending`
			`device = torch.device("cpu")`
fix(api): convert back to model format after blending, convert samples as needed (#274) 2023-03-22 03:05:14 +00:00			`dtype = np.float32`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`embeds = {}`

fix(api): write tests for embedding/inversion blending 2023-10-07 00:04:48 +00:00			`for name, weight, base_token, format in embeddings:`
make blend functions take tuples rather than split lists 2023-03-18 15:50:48 +00:00			`if base_token is None:`
feat(api): detect Textual Inversion type from keys (#262) 2023-03-20 01:16:52 +00:00			`logger.debug("no base token provided, using name: %s", name)`
make blend functions take tuples rather than split lists 2023-03-18 15:50:48 +00:00			`base_token = name`

			`logger.info(`
			`"blending Textual Inversion %s with weight of %s for token %s",`
			`name,`
			`weight,`
			`base_token,`
			`)`

feat(api): detect Textual Inversion type from keys (#262) 2023-03-20 01:16:52 +00:00			`loaded_embeds = load_tensor(name, map_location=device)`
			`if loaded_embeds is None:`
			`logger.warning("unable to load tensor")`
			`continue`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00
fix(api): write tests for embedding/inversion blending 2023-10-07 00:04:48 +00:00			`if format is None:`
fix(api): correctly detect unknown embedding format 2023-11-24 05:53:17 +00:00			`format = detect_embedding_format(loaded_embeds)`
fix(api): write tests for embedding/inversion blending 2023-10-07 00:04:48 +00:00
			`if format == "concept":`
			`blend_embedding_concept(embeds, loaded_embeds, dtype, base_token, weight)`
			`elif format == "parameters":`
			`blend_embedding_parameters(embeds, loaded_embeds, dtype, base_token, weight)`
			`elif format == "embeddings":`
			`blend_embedding_embeddings(embeds, loaded_embeds, dtype, base_token, weight)`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`else:`
fix(api): write tests for embedding/inversion blending 2023-10-07 00:04:48 +00:00			`raise ValueError(f"unknown Textual Inversion format: {format}")`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00
fix(api): write tests for embedding/inversion blending 2023-10-07 00:04:48 +00:00			`# add the tokens to the tokenizer`
			`num_added_tokens = tokenizer.add_tokens(list(embeds.keys()))`
			`if num_added_tokens == 0:`
			`raise ValueError(`
			"The tokenizer already contains the tokens. Please pass a different `token` that is not already in the tokenizer."
apply lint 2023-03-16 00:27:29 +00:00			`)`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00
fix(api): write tests for embedding/inversion blending 2023-10-07 00:04:48 +00:00			`logger.trace("added %s tokens", num_added_tokens)`

			`blend_embedding_node(text_encoder, tokenizer, embeds, num_added_tokens)`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00
			`return (text_encoder, tokenizer)`


fix(api): mark all convert methods as no_grad 2023-03-01 14:26:40 +00:00			`@torch.no_grad()`
add none option to inversion menu 2023-02-22 05:50:27 +00:00			`def convert_diffusion_textual_inversion(`
lint(api): name context params consistently (#278) 2023-04-10 01:33:03 +00:00			`conversion: ConversionContext,`
apply lint 2023-03-05 13:19:48 +00:00			`name: str,`
			`base_model: str,`
			`inversion: str,`
apply lint 2023-03-18 16:50:09 +00:00			`inversion_format: str,`
apply lint 2023-03-05 13:19:48 +00:00			`base_token: Optional[str] = None,`
apply lint 2023-03-18 16:50:09 +00:00			`inversion_weight: Optional[float] = 1.0,`
add none option to inversion menu 2023-02-22 05:50:27 +00:00			`):`
lint(api): name context params consistently (#278) 2023-04-10 01:33:03 +00:00			`dest_path = path.join(conversion.model_path, f"inversion-{name}")`
add none option to inversion menu 2023-02-22 05:50:27 +00:00			`logger.info(`
			`"converting Textual Inversion: %s + %s -> %s", base_model, inversion, dest_path`
			`)`
feat(api): convert Textual Inversion weights 2023-02-21 05:07:16 +00:00
feat(api): look for an index file when checking for converted models (#222) 2023-03-08 05:40:04 +00:00			`encoder_path = path.join(dest_path, "text_encoder")`
lint(api): use constant for model filename 2023-03-24 13:14:19 +00:00			`encoder_model = path.join(encoder_path, ONNX_MODEL)`
feat(api): look for an index file when checking for converted models (#222) 2023-03-08 05:40:04 +00:00			`tokenizer_path = path.join(dest_path, "tokenizer")`

apply lint 2023-03-08 05:57:39 +00:00			`if (`
			`path.exists(dest_path)`
			`and path.exists(encoder_model)`
			`and path.exists(tokenizer_path)`
			`):`
load inversions from extras file 2023-02-22 03:40:57 +00:00			`logger.info("ONNX model already exists, skipping.")`
add none option to inversion menu 2023-02-22 05:50:27 +00:00			`return`
load inversions from extras file 2023-02-22 03:40:57 +00:00
feat(api): look for an index file when checking for converted models (#222) 2023-03-08 05:40:04 +00:00			`makedirs(encoder_path, exist_ok=True)`
feat(api): convert Textual Inversion weights 2023-02-21 05:07:16 +00:00
lint(api): use constant for model filename 2023-03-24 13:14:19 +00:00			`text_encoder = load_model(path.join(base_model, "text_encoder", ONNX_MODEL))`
feat(api): convert Textual Inversion weights 2023-02-21 05:07:16 +00:00			`tokenizer = CLIPTokenizer.from_pretrained(`
			`base_model,`
			`subfolder="tokenizer",`
fix devices, make subdir 2023-02-22 04:49:34 +00:00			`)`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`text_encoder, tokenizer = blend_textual_inversions(`
lint(api): name context params consistently (#278) 2023-04-10 01:33:03 +00:00			`conversion,`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`text_encoder,`
			`tokenizer,`
apply lint 2023-03-18 16:50:09 +00:00			`[(inversion, inversion_weight, base_token, inversion_format)],`
feat(api): convert Textual Inversion weights 2023-02-21 05:07:16 +00:00			`)`

apply lint 2023-03-18 16:50:09 +00:00			`logger.info("saving tokenizer for textual inversion")`
feat(api): look for an index file when checking for converted models (#222) 2023-03-08 05:40:04 +00:00			`tokenizer.save_pretrained(tokenizer_path)`
fix(api): load tokenizer with textual inversions 2023-03-02 01:08:31 +00:00
apply lint 2023-03-18 16:50:09 +00:00			`logger.info("saving text encoder for textual inversion")`
feat(api): blend Textual Inversions from prompt 2023-03-15 22:14:52 +00:00			`save_model(`
feat(api): convert Textual Inversion weights 2023-02-21 05:07:16 +00:00			`text_encoder,`
feat(api): look for an index file when checking for converted models (#222) 2023-03-08 05:40:04 +00:00			`f=encoder_model,`
feat(api): convert Textual Inversion weights 2023-02-21 05:07:16 +00:00			`)`
fix(api): better logging when converting textual inversions 2023-03-02 13:57:59 +00:00
apply lint 2023-03-18 16:50:09 +00:00			`logger.info("textual inversion saved to %s", dest_path)`