feat(api): enable ONNX optimizations through env

2023-02-18 15:44:39 -06:00 · 2023-02-18 15:44:39 -06:00 · 5b4c370a1b
parent 0d2211ff25
commit 5b4c370a1b
2 changed files with 43 additions and 6 deletions
--- a/api/onnx_web/params.py
+++ b/api/onnx_web/params.py
@ -1,7 +1,10 @@
 from enum import IntEnum
-from typing import Any, Dict, Literal, Optional, Tuple, Union
+from logging import getLogger
+from typing import Any, Dict, List, Literal, Optional, Tuple, Union

-from onnxruntime import SessionOptions
+from onnxruntime import GraphOptimizationLevel, SessionOptions
+
+logger = getLogger(__name__)


 class SizeChart(IntEnum):
@ -75,11 +78,16 @@ class Size:

 class DeviceParams:
    def __init__(
-        self, device: str, provider: str, options: Optional[dict] = None
+        self,
+        device: str,
+        provider: str,
+        options: Optional[dict] = None,
+        optimizations: Optional[List[str]] = None,
    ) -> None:
        self.device = device
        self.provider = provider
        self.options = options
+        self.optimizations = optimizations

    def __str__(self) -> str:
        return "%s - %s (%s)" % (self.device, self.provider, self.options)
@ -91,7 +99,23 @@ class DeviceParams:
            return (self.provider, self.options)

    def sess_options(self) -> SessionOptions:
-        return SessionOptions()
+        sess = SessionOptions()
+
+        if "onnx-low-memory" in self.optimizations:
+            logger.debug("enabling ONNX low-memory optimizations")
+            sess.enable_cpu_mem_arena = False
+            sess.enable_mem_pattern = False
+            sess.enable_mem_reuse = False
+
+        if "onnx-optimization-disable" in self.optimizations:
+            sess.graph_optimization_level = GraphOptimizationLevel.ORT_DISABLE_ALL
+        elif "onnx-optimization-basic" in self.optimizations:
+            sess.graph_optimization_level = GraphOptimizationLevel.ORT_ENABLE_BASIC
+        elif "onnx-optimization-all" in self.optimizations:
+            sess.graph_optimization_level = GraphOptimizationLevel.ORT_ENABLE_ALL
+
+        if "onnx-deterministic-compute" in self.optimizations:
+            sess.use_deterministic_compute = True

    def torch_str(self) -> str:
        if self.device.startswith("cuda"):
--- a/api/onnx_web/serve.py
+++ b/api/onnx_web/serve.py
@ -349,16 +349,29 @@ def load_platforms(context: ServerContext) -> None:
                            {
                                "device_id": i,
                            },
+                            context.optimizations,
                        )
                    )
            else:
                available_platforms.append(
-                    DeviceParams(potential, platform_providers[potential])
+                    DeviceParams(
+                        potential,
+                        platform_providers[potential],
+                        None,
+                        context.optimizations,
+                    )
                )

    if context.any_platform:
        # the platform should be ignored when the job is scheduled, but set to CPU just in case
-        available_platforms.append(DeviceParams("any", platform_providers["cpu"]))
+        available_platforms.append(
+            DeviceParams(
+                "any",
+                platform_providers["cpu"],
+                None,
+                context.optimizations,
+            )
+        )

    # make sure CPU is last on the list
    def any_first_cpu_last(a: DeviceParams, b: DeviceParams):