UKPLab · davychxn · Jul 18, 2024 · Jul 25, 2024 · Jul 27, 2024 · Sep 20, 2024
diff --git a/sentence_transformers/SentenceTransformer.py b/sentence_transformers/SentenceTransformer.py
@@ -35,6 +35,7 @@
 from .models import Normalize, Pooling, Transformer
 from .quantization import quantize_embeddings
 from .util import (
+    ImageChannelDimension,
     batch_to_device,
     get_device_name,
     import_from_string,
@@ -367,6 +368,7 @@ def encode(
         convert_to_tensor: Literal[False] = ...,
         device: str = ...,
         normalize_embeddings: bool = ...,
+        input_data_format: str = ImageChannelDimension.LAST,
     ) -> Tensor: ...
 
     @overload
@@ -383,6 +385,7 @@ def encode(
         convert_to_tensor: Literal[False] = ...,
         device: str = ...,
         normalize_embeddings: bool = ...,
+        input_data_format: str = ImageChannelDimension.LAST,
     ) -> np.ndarray: ...
 
     @overload
@@ -399,6 +402,7 @@ def encode(
         convert_to_tensor: Literal[True] = ...,
         device: str = ...,
         normalize_embeddings: bool = ...,
+        input_data_format: str = ImageChannelDimension.LAST,
     ) -> Tensor: ...
 
     @overload
@@ -415,6 +419,7 @@ def encode(
         convert_to_tensor: Literal[False] = ...,
         device: str = ...,
         normalize_embeddings: bool = ...,
+        input_data_format: str = ImageChannelDimension.LAST,
     ) -> list[Tensor]: ...
 
     def encode(
@@ -430,6 +435,7 @@ def encode(
         convert_to_tensor: bool = False,
         device: str = None,
         normalize_embeddings: bool = False,
+        input_data_format: str = ImageChannelDimension.LAST,
     ) -> list[Tensor] | np.ndarray | Tensor:
         """
         Computes sentence embeddings.
@@ -491,6 +497,9 @@ def encode(
             self.is_hpu_graph_enabled = True
 
         self.eval()
+        # Will be used in Image Tokenizer
+        self.input_data_format = input_data_format
+
         if show_progress_bar is None:
             show_progress_bar = logger.getEffectiveLevel() in (logging.INFO, logging.DEBUG)
 
@@ -991,7 +1000,7 @@ def tokenize(self, texts: list[str] | list[dict] | list[tuple[str, str]]) -> dic
             Dict[str, Tensor]: A dictionary of tensors with the tokenized texts. Common keys are "input_ids",
                 "attention_mask", and "token_type_ids".
         """
-        return self._first_module().tokenize(texts)
+        return self._first_module().tokenize(texts, input_data_format=self.input_data_format)
 
     def get_sentence_features(self, *features) -> dict[Literal["sentence_embedding"], torch.Tensor]:
         return self._first_module().get_sentence_features(*features)

diff --git a/sentence_transformers/models/CLIPModel.py b/sentence_transformers/models/CLIPModel.py
@@ -4,6 +4,7 @@
 import transformers
 from PIL import Image
 from torch import nn
+from ..util import ImageChannelDimension
 
 
 class CLIPModel(nn.Module):
@@ -51,7 +52,7 @@ def forward(self, features: dict[str, torch.Tensor]) -> dict[str, torch.Tensor]:
 
         return features
 
-    def tokenize(self, texts, padding: str | bool = True) -> dict[str, torch.Tensor]:
+    def tokenize(self, texts, padding: str | bool = True, input_data_format: str = ImageChannelDimension.LAST) -> dict[str, torch.Tensor]:
         images = []
         texts_values = []
         image_text_info = []
@@ -69,7 +70,7 @@ def tokenize(self, texts, padding: str | bool = True) -> dict[str, torch.Tensor]
             encoding = self.processor.tokenizer(texts_values, return_tensors="pt", padding=padding)
 
         if len(images):
-            image_features = self.processor.image_processor(images, return_tensors="pt")
+            image_features = self.processor.image_processor(images, return_tensors="pt", input_data_format=input_data_format)
             encoding["pixel_values"] = image_features.pixel_values
 
         encoding["image_text_info"] = image_text_info

diff --git a/sentence_transformers/util.py b/sentence_transformers/util.py
@@ -28,6 +28,12 @@
     from sentence_transformers.cross_encoder.CrossEncoder import CrossEncoder
     from sentence_transformers.SentenceTransformer import SentenceTransformer
 
+class ImageChannelDimension():
+    """
+    Defines the color channels' position in an Image's shape
+    """
+    FIRST = "channels_first"
+    LAST = "channels_last"
 
 def _convert_to_tensor(a: list | np.ndarray | Tensor) -> Tensor:
     """