immich/machine-learning/immich_ml/sessions/ort.py

from __future__ import annotations

from pathlib import Path
from typing import Any

import numpy as np
import onnxruntime as ort
from numpy.typing import NDArray

from immich_ml.models.constants import SUPPORTED_PROVIDERS
from immich_ml.schemas import SessionNode

from ..config import log, settings


class OrtSession:
    session: ort.InferenceSession

    def __init__(
        self,
        model_path: Path | str,
        providers: list[str] | None = None,
        provider_options: list[dict[str, Any]] | None = None,
        sess_options: ort.SessionOptions | None = None,
    ):
        self.model_path = Path(model_path)
        self.providers = providers if providers is not None else self._providers_default
        self.provider_options = provider_options if provider_options is not None else self._provider_options_default
        self.sess_options = sess_options if sess_options is not None else self._sess_options_default
        self.session = ort.InferenceSession(
            self.model_path.as_posix(),
            providers=self.providers,
            provider_options=self.provider_options,
            sess_options=self.sess_options,
        )

    def get_inputs(self) -> list[SessionNode]:
        inputs: list[SessionNode] = self.session.get_inputs()
        return inputs

    def get_outputs(self) -> list[SessionNode]:
        outputs: list[SessionNode] = self.session.get_outputs()
        return outputs

    def run(
        self,
        output_names: list[str] | None,
        input_feed: dict[str, NDArray[np.float32]] | dict[str, NDArray[np.int32]],
        run_options: Any = None,
    ) -> list[NDArray[np.float32]]:
        outputs: list[NDArray[np.float32]] = self.session.run(output_names, input_feed, run_options)
        return outputs

    @property
    def providers(self) -> list[str]:
        return self._providers

    @providers.setter
    def providers(self, providers: list[str]) -> None:
        log.info(f"Setting execution providers to {providers}, in descending order of preference")
        self._providers = providers

    @property
    def _providers_default(self) -> list[str]:
        available_providers = set(ort.get_available_providers())
        log.debug(f"Available ORT providers: {available_providers}")
        if (openvino := "OpenVINOExecutionProvider") in available_providers:
            device_ids: list[str] = ort.capi._pybind_state.get_available_openvino_device_ids()
            log.debug(f"Available OpenVINO devices: {device_ids}")

            gpu_devices = [device_id for device_id in device_ids if device_id.startswith("GPU")]
            if not gpu_devices:
                log.warning("No GPU device found in OpenVINO. Falling back to CPU.")
                available_providers.remove(openvino)
        return [provider for provider in SUPPORTED_PROVIDERS if provider in available_providers]

    @property
    def provider_options(self) -> list[dict[str, Any]]:
        return self._provider_options

    @provider_options.setter
    def provider_options(self, provider_options: list[dict[str, Any]]) -> None:
        log.debug(f"Setting execution provider options to {provider_options}")
        self._provider_options = provider_options

    @property
    def _provider_options_default(self) -> list[dict[str, Any]]:
        provider_options = []
        for provider in self.providers:
            match provider:
                case "CPUExecutionProvider":
                    options = {"arena_extend_strategy": "kSameAsRequested"}
                case "CUDAExecutionProvider" | "ROCMExecutionProvider":
                    options = {"arena_extend_strategy": "kSameAsRequested", "device_id": settings.device_id}
                case "OpenVINOExecutionProvider":
                    options = {
                        "device_type": f"GPU.{settings.device_id}",
                        "precision": "FP32",
                        "cache_dir": (self.model_path.parent / "openvino").as_posix(),
                    }
                case "CoreMLExecutionProvider":
                    options = {
                        "ModelFormat": "MLProgram",
                        "MLComputeUnits": "ALL",
                        "SpecializationStrategy": "FastPrediction",
                        "AllowLowPrecisionAccumulationOnGPU": "1",
                        "ModelCacheDirectory": (self.model_path.parent / "coreml").as_posix(),
                    }
                case _:
                    options = {}
            provider_options.append(options)
        return provider_options

    @property
    def sess_options(self) -> ort.SessionOptions:
        return self._sess_options

    @sess_options.setter
    def sess_options(self, sess_options: ort.SessionOptions) -> None:
        log.debug(f"Setting execution_mode to {sess_options.execution_mode.name}")
        log.debug(f"Setting inter_op_num_threads to {sess_options.inter_op_num_threads}")
        log.debug(f"Setting intra_op_num_threads to {sess_options.intra_op_num_threads}")
        self._sess_options = sess_options

    @property
    def _sess_options_default(self) -> ort.SessionOptions:
        sess_options = ort.SessionOptions()
        sess_options.enable_cpu_mem_arena = settings.model_arena

        # avoid thread contention between models
        if settings.model_inter_op_threads > 0:
            sess_options.inter_op_num_threads = settings.model_inter_op_threads
        # these defaults work well for CPU, but bottleneck GPU
        elif settings.model_inter_op_threads == 0 and self.providers == ["CPUExecutionProvider"]:
            sess_options.inter_op_num_threads = 1

        if settings.model_intra_op_threads > 0:
            sess_options.intra_op_num_threads = settings.model_intra_op_threads
        elif settings.model_intra_op_threads == 0 and self.providers == ["CPUExecutionProvider"]:
            sess_options.intra_op_num_threads = 2

        if sess_options.inter_op_num_threads > 1:
            sess_options.execution_mode = ort.ExecutionMode.ORT_PARALLEL

        return sess_options
refactor(ml): model sessions (#10559) 2024-06-25 12:00:24 -04:00			`from __future__ import annotations`

			`from pathlib import Path`
			`from typing import Any`

			`import numpy as np`
			`import onnxruntime as ort`
			`from numpy.typing import NDArray`

chore(ml): installable package (#17153) * app -> immich_ml * fix test ci * omit file name * add new line * add new line 2025-03-27 15:49:09 -04:00			`from immich_ml.models.constants import SUPPORTED_PROVIDERS`
			`from immich_ml.schemas import SessionNode`
refactor(ml): model sessions (#10559) 2024-06-25 12:00:24 -04:00
			`from ..config import log, settings`


			`class OrtSession:`
feat: ocr (#18836) * feat: add OCR functionality and related configurations * chore: update labeler configuration for machine learning files * feat(i18n): enhance OCR model descriptions and add orientation classification and unwarping features * chore: update Dockerfile to include ccache for improved build performance * feat(ocr): enhance OCR model configuration with orientation classification and unwarping options, update PaddleOCR integration, and improve response structure * refactor(ocr): remove OCR_CLEANUP job from enum and type definitions * refactor(ocr): remove obsolete OCR entity and migration files, and update asset job status and schema to accommodate new OCR table structure * refactor(ocr): update OCR schema and response structure to use individual coordinates instead of bounding box, and adjust related service and repository files * feat: enhance OCR configuration and functionality - Updated OCR settings to include minimum detection box score, minimum detection score, and minimum recognition score. - Refactored PaddleOCRecognizer to utilize new scoring parameters. - Introduced new database tables for asset OCR data and search functionality. - Modified related services and repositories to support the new OCR features. - Updated translations for improved clarity in settings UI. * sql changes * use rapidocr * change dto * update web * update lock * update api * store positions as normalized floats * match column order in db * update admin ui settings descriptions fix max resolution key set min threshold to 0.1 fix bind * apply config correctly, adjust defaults * unnecessary model type * unnecessary sources * fix(ocr): switch RapidOCR lang type from LangDet to LangRec * fix(ocr): expose lang_type (LangRec.CH) and font_path on OcrOptions for RapidOCR * fix(ocr): make OCR text search case- and accent-insensitive using ILIKE + unaccent * fix(ocr): add OCR search fields * fix: Add OCR database migration and update ML prediction logic. * trigrams are already case insensitive * add tests * format * update migrations * wrong uuid function * linting * maybe fix medium tests * formatting * fix weblate check * openapi * sql * minor fixes * maybe fix medium tests part 2 * passing medium tests * format web * readd sql * format dart * disabled in e2e * chore: translation ordering --------- Co-authored-by: mertalev <101130780+mertalev@users.noreply.github.com> Co-authored-by: Alex Tran <alex.tran1502@gmail.com> 2025-10-27 22:09:55 +08:00			`session: ort.InferenceSession`

refactor(ml): model sessions (#10559) 2024-06-25 12:00:24 -04:00			`def __init__(`
			`self,`
			`model_path: Path \| str,`
			`providers: list[str] \| None = None,`
			`provider_options: list[dict[str, Any]] \| None = None,`
			`sess_options: ort.SessionOptions \| None = None,`
			`):`
			`self.model_path = Path(model_path)`
			`self.providers = providers if providers is not None else self._providers_default`
			`self.provider_options = provider_options if provider_options is not None else self._provider_options_default`
			`self.sess_options = sess_options if sess_options is not None else self._sess_options_default`
			`self.session = ort.InferenceSession(`
			`self.model_path.as_posix(),`
			`providers=self.providers,`
			`provider_options=self.provider_options,`
			`sess_options=self.sess_options,`
			`)`

			`def get_inputs(self) -> list[SessionNode]:`
			`inputs: list[SessionNode] = self.session.get_inputs()`
			`return inputs`

			`def get_outputs(self) -> list[SessionNode]:`
			`outputs: list[SessionNode] = self.session.get_outputs()`
			`return outputs`

			`def run(`
			`self,`
			`output_names: list[str] \| None,`
			`input_feed: dict[str, NDArray[np.float32]] \| dict[str, NDArray[np.int32]],`
			`run_options: Any = None,`
			`) -> list[NDArray[np.float32]]:`
			`outputs: list[NDArray[np.float32]] = self.session.run(output_names, input_feed, run_options)`
			`return outputs`

			`@property`
			`def providers(self) -> list[str]:`
			`return self._providers`

			`@providers.setter`
			`def providers(self, providers: list[str]) -> None:`
			`log.info(f"Setting execution providers to {providers}, in descending order of preference")`
			`self._providers = providers`

			`@property`
			`def _providers_default(self) -> list[str]:`
			`available_providers = set(ort.get_available_providers())`
			`log.debug(f"Available ORT providers: {available_providers}")`
			`if (openvino := "OpenVINOExecutionProvider") in available_providers:`
			`device_ids: list[str] = ort.capi._pybind_state.get_available_openvino_device_ids()`
			`log.debug(f"Available OpenVINO devices: {device_ids}")`

			`gpu_devices = [device_id for device_id in device_ids if device_id.startswith("GPU")]`
			`if not gpu_devices:`
			`log.warning("No GPU device found in OpenVINO. Falling back to CPU.")`
			`available_providers.remove(openvino)`
			`return [provider for provider in SUPPORTED_PROVIDERS if provider in available_providers]`

			`@property`
			`def provider_options(self) -> list[dict[str, Any]]:`
			`return self._provider_options`

			`@provider_options.setter`
			`def provider_options(self, provider_options: list[dict[str, Any]]) -> None:`
			`log.debug(f"Setting execution provider options to {provider_options}")`
			`self._provider_options = provider_options`

			`@property`
			`def _provider_options_default(self) -> list[dict[str, Any]]:`
fix(deps): update machine-learning (#10740) * fix(deps): update machine-learning * update openvino options, cuda * update openvino build * fix indentation * update minimum nvidia driver --------- Co-authored-by: renovate[bot] <29139614+renovate[bot]@users.noreply.github.com> Co-authored-by: mertalev <101130780+mertalev@users.noreply.github.com> 2024-07-21 19:30:24 -04:00			`provider_options = []`
refactor(ml): model sessions (#10559) 2024-06-25 12:00:24 -04:00			`for provider in self.providers:`
			`match provider:`
feat(ml): round-robin device assignment (#13237) * round-robin device assignment * docs and tests clarify doc 2024-10-07 17:37:45 -04:00			`case "CPUExecutionProvider":`
fix(deps): update machine-learning (#10740) * fix(deps): update machine-learning * update openvino options, cuda * update openvino build * fix indentation * update minimum nvidia driver --------- Co-authored-by: renovate[bot] <29139614+renovate[bot]@users.noreply.github.com> Co-authored-by: mertalev <101130780+mertalev@users.noreply.github.com> 2024-07-21 19:30:24 -04:00			`options = {"arena_extend_strategy": "kSameAsRequested"}`
feat(ml): rocm (#16613) * feat(ml): introduce support of onnxruntime-rocm for AMD GPU * try mutex for algo cache use OrtMutex * bump versions, run on mich use 3.12 use 1.19.2 * acquire lock before any changes can be made guard algo benchmark results mark mutex as mutable re-add /bin/sh (?) use 3.10 use 6.1.2 * use composite cache key 1.19.2 fix variable name fix variable reference aaaaaaaaaaaaaaaaaaaa * bump deps * disable algo caching * fix gha * try ubuntu runner * actually fix the gha * update patch * skip mimalloc preload for rocm * increase build threads * increase timeout for rocm * Revert "increase timeout for rocm" This reverts commit 2c4452f5d132198ed381a7b262b4a5cab5114b5f. * attempt migraphx * set migraphx_home * Revert "set migraphx_home" This reverts commit c121d3e48754b3bce100636f8d666deec58a44b7. * Revert "attempt migraphx" This reverts commit 521f9fb72dbe506dc6cb8faeb6494817d87265c6. * migraphx, take two * bump rocm * allow cpu * try only targeting migraphx * skip tests * migraph ❌ * known issues * target gfx900 and gfx1102 * mention `HSA_USE_SVM` * update lock * set device id for rocm --------- Co-authored-by: Mehdi GHESH <mehdi.ghesh@hotmail.fr> 2025-03-17 17:08:19 -04:00			`case "CUDAExecutionProvider" \| "ROCMExecutionProvider":`
feat(ml): round-robin device assignment (#13237) * round-robin device assignment * docs and tests clarify doc 2024-10-07 17:37:45 -04:00			`options = {"arena_extend_strategy": "kSameAsRequested", "device_id": settings.device_id}`
refactor(ml): model sessions (#10559) 2024-06-25 12:00:24 -04:00			`case "OpenVINOExecutionProvider":`
fix(deps): update machine-learning (#10740) * fix(deps): update machine-learning * update openvino options, cuda * update openvino build * fix indentation * update minimum nvidia driver --------- Co-authored-by: renovate[bot] <29139614+renovate[bot]@users.noreply.github.com> Co-authored-by: mertalev <101130780+mertalev@users.noreply.github.com> 2024-07-21 19:30:24 -04:00			`options = {`
feat(ml): round-robin device assignment (#13237) * round-robin device assignment * docs and tests clarify doc 2024-10-07 17:37:45 -04:00			`"device_type": f"GPU.{settings.device_id}",`
fix(deps): update machine-learning (#10740) * fix(deps): update machine-learning * update openvino options, cuda * update openvino build * fix indentation * update minimum nvidia driver --------- Co-authored-by: renovate[bot] <29139614+renovate[bot]@users.noreply.github.com> Co-authored-by: mertalev <101130780+mertalev@users.noreply.github.com> 2024-07-21 19:30:24 -04:00			`"precision": "FP32",`
			`"cache_dir": (self.model_path.parent / "openvino").as_posix(),`
			`}`
feat(ml): coreml (#17718) * coreml * add test * use arena by default in native installation * fix tests * add env to docs * remove availability envs 2025-10-14 13:51:31 -04:00			`case "CoreMLExecutionProvider":`
			`options = {`
			`"ModelFormat": "MLProgram",`
			`"MLComputeUnits": "ALL",`
			`"SpecializationStrategy": "FastPrediction",`
			`"AllowLowPrecisionAccumulationOnGPU": "1",`
			`"ModelCacheDirectory": (self.model_path.parent / "coreml").as_posix(),`
			`}`
refactor(ml): model sessions (#10559) 2024-06-25 12:00:24 -04:00			`case _:`
fix(deps): update machine-learning (#10740) * fix(deps): update machine-learning * update openvino options, cuda * update openvino build * fix indentation * update minimum nvidia driver --------- Co-authored-by: renovate[bot] <29139614+renovate[bot]@users.noreply.github.com> Co-authored-by: mertalev <101130780+mertalev@users.noreply.github.com> 2024-07-21 19:30:24 -04:00			`options = {}`
			`provider_options.append(options)`
			`return provider_options`
refactor(ml): model sessions (#10559) 2024-06-25 12:00:24 -04:00
			`@property`
			`def sess_options(self) -> ort.SessionOptions:`
			`return self._sess_options`

			`@sess_options.setter`
			`def sess_options(self, sess_options: ort.SessionOptions) -> None:`
			`log.debug(f"Setting execution_mode to {sess_options.execution_mode.name}")`
			`log.debug(f"Setting inter_op_num_threads to {sess_options.inter_op_num_threads}")`
			`log.debug(f"Setting intra_op_num_threads to {sess_options.intra_op_num_threads}")`
			`self._sess_options = sess_options`

			`@property`
			`def _sess_options_default(self) -> ort.SessionOptions:`
			`sess_options = ort.SessionOptions()`
feat(ml): coreml (#17718) * coreml * add test * use arena by default in native installation * fix tests * add env to docs * remove availability envs 2025-10-14 13:51:31 -04:00			`sess_options.enable_cpu_mem_arena = settings.model_arena`
refactor(ml): model sessions (#10559) 2024-06-25 12:00:24 -04:00
			`# avoid thread contention between models`
			`if settings.model_inter_op_threads > 0:`
			`sess_options.inter_op_num_threads = settings.model_inter_op_threads`
			`# these defaults work well for CPU, but bottleneck GPU`
			`elif settings.model_inter_op_threads == 0 and self.providers == ["CPUExecutionProvider"]:`
			`sess_options.inter_op_num_threads = 1`

			`if settings.model_intra_op_threads > 0:`
			`sess_options.intra_op_num_threads = settings.model_intra_op_threads`
			`elif settings.model_intra_op_threads == 0 and self.providers == ["CPUExecutionProvider"]:`
			`sess_options.intra_op_num_threads = 2`

			`if sess_options.inter_op_num_threads > 1:`
			`sess_options.execution_mode = ort.ExecutionMode.ORT_PARALLEL`

			`return sess_options`