lightonai · raphaelsty · Aug 22, 2024 · Aug 22, 2024
diff --git a/.github/workflows/python-tests.yml b/.github/workflows/python-tests.yml
@@ -29,4 +29,4 @@ jobs:
 
     - name: Run tests library
       run: |
-        pytest giga_cherche
+        pytest pylate
diff --git a/README.md b/README.md
@@ -15,7 +15,7 @@ For example, to run the BEIR evaluations using giga-cherche indexes:
 # Modeling
 The modeling of giga-cherche is based on sentence-transformers which allow to build a ColBERT model from any encoder available by appending a projection layer applied to the output of the encoders to reduce the embeddings dimension. 
 ```
-from giga_cherche import models
+from pylate import models
 model_name = "bert-base-uncased"
 model = models.ColBERT(model_name_or_path=model_name)
 ```
@@ -40,7 +40,7 @@ from sentence_transformers import (
     SentenceTransformerTrainingArguments,
 )
 
-from giga_cherche import losses, models, datasets, evaluation
+from pylate import losses, models, datasets, evaluation
 
 model_name = "bert-base-uncased"
 batch_size = 32
@@ -134,7 +134,7 @@ Note that query embeddings cannot be pooled.
 You can then compute the ColBERT max-sim scores like this:
 
 ```python
-from giga_cherche import scores
+from pylate import scores
 similarity_scores = scores.colbert_scores(query_embeddings, document_embeddings)
 ```
 
@@ -147,7 +147,7 @@ Before being able to create and use an index, you need to need to launch the Wea
 To populate an index, simply create it and then add the computed embeddings with their corresponding ids:
 
 ```python
-from giga_cherche import indexes
+from pylate import indexes
 
 index = indexes.Weaviate(name="test_index")
 
@@ -171,7 +171,7 @@ index.remove_documents(["1"])
 To retrieve documents from the index, you can use the following code snippet:
 
 ```python
-from giga_cherche import retrieve
+from pylate import retrieve
 
 retriever = retrieve.ColBERT(Weaviate)
 
@@ -185,7 +185,7 @@ retrieved_chunks = retriever.retrieve(queries_embeddings, k=10)
 You can also simply rerank a list of ids produced by an upstream retrieval module (such as BM25):
 
 ```python
-from giga_cherche import rerank
+from pylate import rerank
 
 reranker = rerank.ColBERT(Weaviate)
 
@@ -199,7 +199,7 @@ reranked_chunks = reranker.rerank(
 We can eavaluate the performance of the model using the BEIR evaluation framework. The following code snippet shows how to evaluate the model on the SciFact dataset:
 
 ```python
-from giga_cherche import evaluation, indexes, models, retrieve, utils
+from pylate import evaluation, indexes, models, retrieve, utils
 
 model = models.ColBERT(
     model_name_or_path="NohTow/colbertv2_sentence_transformer",

diff --git a/evaluation/beir.py b/evaluation/beir.py
@@ -1,6 +1,6 @@
 """Evaluation script for the SciFact dataset using the Beir library."""
 
-from giga_cherche import evaluation, indexes, models, retrieve
+from pylate import evaluation, indexes, models, retrieve
 
 model = models.ColBERT(
     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2",

diff --git a/evaluation/miracl.py b/evaluation/miracl.py
@@ -2,7 +2,7 @@
 
 from beir.datasets.data_loader import GenericDataLoader
 
-from giga_cherche import evaluation, indexes, models, retrieve
+from pylate import evaluation, indexes, models, retrieve
 
 model = models.ColBERT(
     model_name_or_path="NohTow/colbert_xml-r-english",

diff --git a/giga_cherche/__init__.py → pylate/__init__.py b/giga_cherche/__init__.py → pylate/__init__.py
diff --git a/giga_cherche/__version__.py → pylate/__version__.py b/giga_cherche/__version__.py → pylate/__version__.py
diff --git a/giga_cherche/evaluation/__init__.py → pylate/evaluation/__init__.py b/giga_cherche/evaluation/__init__.py → pylate/evaluation/__init__.py
diff --git a/giga_cherche/evaluation/beir.py → pylate/evaluation/beir.py b/giga_cherche/evaluation/beir.py → pylate/evaluation/beir.py
@@ -44,7 +44,7 @@ def load_beir(dataset_name: str, split: str = "test") -> tuple[list, list, dict]
 
     Examples
     --------
-    >>> from giga_cherche import evaluation
+    >>> from pylate import evaluation
 
     >>> documents, queries, qrels = evaluation.load_beir(
     ...     "scifact",
@@ -111,7 +111,7 @@ def get_beir_triples(
 
     Examples
     --------
-    >>> from giga_cherche import evaluation
+    >>> from pylate import evaluation
 
     >>> documents, queries, qrels = evaluation.load_beir(
     ...     "scifact",

diff --git a/...herche/evaluation/colbert_distillation.py → pylate/evaluation/colbert_distillation.py b/...herche/evaluation/colbert_distillation.py → pylate/evaluation/colbert_distillation.py
@@ -41,7 +41,7 @@ class ColBERTDistillationEvaluator(SentenceEvaluator):
     Examples
     --------
 
-    >>> from giga_cherche import models, evaluation
+    >>> from pylate import models, evaluation
 
     >>> model = models.ColBERT(
     ...     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2", device="cpu"

diff --git a/giga_cherche/evaluation/colbert_triplet.py → pylate/evaluation/colbert_triplet.py b/giga_cherche/evaluation/colbert_triplet.py → pylate/evaluation/colbert_triplet.py
@@ -104,7 +104,7 @@ class ColBERTTripletEvaluator(TripletEvaluator):
 
     Examples
     --------
-    >>> from giga_cherche import evaluation, models
+    >>> from pylate import evaluation, models
 
     >>> model = models.ColBERT(
     ...     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2",

diff --git a/giga_cherche/indexes/__init__.py → pylate/indexes/__init__.py b/giga_cherche/indexes/__init__.py → pylate/indexes/__init__.py
diff --git a/giga_cherche/indexes/base.py → pylate/indexes/base.py b/giga_cherche/indexes/base.py → pylate/indexes/base.py
diff --git a/giga_cherche/indexes/voyager.py → pylate/indexes/voyager.py b/giga_cherche/indexes/voyager.py → pylate/indexes/voyager.py
@@ -46,7 +46,7 @@ class Voyager(Base):
 
     Examples
     --------
-    >>> from giga_cherche import indexes, models
+    >>> from pylate import indexes, models
 
     >>> index = indexes.Voyager(
     ...     index_folder="test_indexes",

diff --git a/giga_cherche/losses/__init__.py → pylate/losses/__init__.py b/giga_cherche/losses/__init__.py → pylate/losses/__init__.py
diff --git a/giga_cherche/losses/contrastive.py → pylate/losses/contrastive.py b/giga_cherche/losses/contrastive.py → pylate/losses/contrastive.py
@@ -81,7 +81,7 @@ class Contrastive(nn.Module):
 
     Examples
     --------
-    >>> from giga_cherche import models, losses
+    >>> from pylate import models, losses
 
     >>> model = models.ColBERT(
     ...     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2", device="cpu"

diff --git a/giga_cherche/losses/distillation.py → pylate/losses/distillation.py b/giga_cherche/losses/distillation.py → pylate/losses/distillation.py
@@ -21,7 +21,7 @@ class Distillation(torch.nn.Module):
 
     Examples
     --------
-    >>> from giga_cherche import models, losses
+    >>> from pylate import models, losses
 
     >>> model = models.ColBERT(
     ...     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2", device="cpu"

diff --git a/giga_cherche/models/Dense.py → pylate/models/Dense.py b/giga_cherche/models/Dense.py → pylate/models/Dense.py
@@ -28,7 +28,7 @@ class Dense(DenseSentenceTransformer):
 
     Examples
     --------
-    >>> from giga_cherche import models
+    >>> from pylate import models
 
     >>> model = models.Dense(
     ...     in_features=768,

diff --git a/giga_cherche/models/__init__.py → pylate/models/__init__.py b/giga_cherche/models/__init__.py → pylate/models/__init__.py
diff --git a/giga_cherche/models/colbert.py → pylate/models/colbert.py b/giga_cherche/models/colbert.py → pylate/models/colbert.py
@@ -148,7 +148,7 @@ class ColBERT(SentenceTransformer):
 
     Examples
     --------
-    >>> from giga_cherche import models
+    >>> from pylate import models
 
     >>> model = models.ColBERT(
     ...     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2",
@@ -808,7 +808,7 @@ def encode_multi_process(
 
         Examples
         --------
-        >>> from giga_cherche import models
+        >>> from pylate import models
 
         >>> model = models.ColBERT(
         ...     "sentence-transformers/all-MiniLM-L6-v2",

diff --git a/giga_cherche/rank/__init__.py → pylate/rank/__init__.py b/giga_cherche/rank/__init__.py → pylate/rank/__init__.py
diff --git a/giga_cherche/rank/rank.py → pylate/rank/rank.py b/giga_cherche/rank/rank.py → pylate/rank/rank.py
@@ -41,7 +41,7 @@ def rerank(
 
     Examples
     --------
-    >>> from giga_cherche import models, rank
+    >>> from pylate import models, rank
 
     >>> model = models.ColBERT(
     ...     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2", device="cpu"

diff --git a/giga_cherche/retrieve/__init__.py → pylate/retrieve/__init__.py b/giga_cherche/retrieve/__init__.py → pylate/retrieve/__init__.py
diff --git a/giga_cherche/retrieve/colbert.py → pylate/retrieve/colbert.py b/giga_cherche/retrieve/colbert.py → pylate/retrieve/colbert.py
@@ -15,7 +15,7 @@ class ColBERT:
 
     Examples
     --------
-    >>> from giga_cherche import indexes, models, retrieve
+    >>> from pylate import indexes, models, retrieve
 
     >>> model = models.ColBERT(
     ...     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2",

diff --git a/giga_cherche/scores/__init__.py → pylate/scores/__init__.py b/giga_cherche/scores/__init__.py → pylate/scores/__init__.py
diff --git a/giga_cherche/scores/scores.py → pylate/scores/scores.py b/giga_cherche/scores/scores.py → pylate/scores/scores.py
@@ -1,5 +1,3 @@
-"""ColBERT scores computation."""
-
 import numpy as np
 import torch
 

diff --git a/giga_cherche/utils/__init__.py → pylate/utils/__init__.py b/giga_cherche/utils/__init__.py → pylate/utils/__init__.py
diff --git a/giga_cherche/utils/collator.py → pylate/utils/collator.py b/giga_cherche/utils/collator.py → pylate/utils/collator.py
@@ -16,7 +16,7 @@ class ColBERTCollator:
 
     Examples
     --------
-    >>> from giga_cherche import models, utils
+    >>> from pylate import models, utils
 
     >>> model = models.ColBERT(
     ...     model_name_or_path="sentence-transformers/all-MiniLM-L6-v2", device="cpu"

diff --git a/giga_cherche/utils/huggingface_models.py → pylate/utils/huggingface_models.py b/giga_cherche/utils/huggingface_models.py → pylate/utils/huggingface_models.py
diff --git a/giga_cherche/utils/iter_batch.py → pylate/utils/iter_batch.py b/giga_cherche/utils/iter_batch.py → pylate/utils/iter_batch.py
@@ -8,7 +8,7 @@ def iter_batch(
 
     Examples
     -------
-    >>> from giga_cherche import utils
+    >>> from pylate import utils
 
     >>> X = [
     ...  "element 0",

diff --git a/giga_cherche/utils/multi_process.py → pylate/utils/multi_process.py b/giga_cherche/utils/multi_process.py → pylate/utils/multi_process.py
diff --git a/giga_cherche/utils/processing.py → pylate/utils/processing.py b/giga_cherche/utils/processing.py → pylate/utils/processing.py
@@ -21,7 +21,7 @@ class KDProcessing:
     Examples
     --------
     >>> from datasets import load_dataset
-    >>> from giga_cherche import utils
+    >>> from pylate import utils
 
     >>> train = load_dataset(
     ...    path="lightonai/lighton-ms-marco-mini",
@@ -121,7 +121,7 @@ def map(self, example: dict) -> dict:
         Examples
         --------
         >>> from datasets import load_dataset
-        >>> from giga_cherche import utils
+        >>> from pylate import utils
 
         >>> train = load_dataset(
         ...    path="lightonai/lighton-ms-marco-mini",

diff --git a/giga_cherche/utils/tensor.py → pylate/utils/tensor.py b/giga_cherche/utils/tensor.py → pylate/utils/tensor.py
diff --git a/setup.py b/setup.py
@@ -1,6 +1,6 @@
 import setuptools
 
-from giga_cherche.__version__ import __version__
+from pylate.__version__ import __version__
 
 with open(file="README.md", mode="r", encoding="utf-8") as fh:
     long_description = fh.read()
@@ -20,7 +20,7 @@
 
 
 setuptools.setup(
-    name="giga_cherche",
+    name="pylate",
     version=f"{__version__}",
     license="",
     author="LightON",

diff --git a/tests/test_contrastive.py b/tests/test_contrastive.py
@@ -11,7 +11,7 @@
 )
 from sentence_transformers.training_args import BatchSamplers
 
-from giga_cherche import evaluation, losses, models, utils
+from pylate import evaluation, losses, models, utils
 
 
 def test_contrastive_training() -> None:

diff --git a/tests/test_kd.py b/tests/test_kd.py
@@ -9,7 +9,7 @@
     SentenceTransformerTrainingArguments,
 )
 
-from giga_cherche import losses, models, utils
+from pylate import losses, models, utils
 
 
 def test_kd_training() -> None:

diff --git a/tests/test_retriever.py b/tests/test_retriever.py
@@ -1,4 +1,4 @@
-from giga_cherche import indexes, models, retrieve
+from pylate import indexes, models, retrieve
 
 
 def test_voyager_index(**kwargs) -> None:

diff --git a/train/knowledge_distillation.py b/train/knowledge_distillation.py
@@ -4,7 +4,7 @@
     SentenceTransformerTrainingArguments,
 )
 
-from giga_cherche import losses, models, utils
+from pylate import losses, models, utils
 
 train = load_dataset(
     path="./datasets/msmarco_fr_full",

diff --git a/train/triplet.py b/train/triplet.py
@@ -5,7 +5,7 @@
 )
 from sentence_transformers.training_args import BatchSamplers
 
-from giga_cherche import evaluation, losses, models, utils
+from pylate import evaluation, losses, models, utils
 
 model_name = "NohTow/colbertv2_sentence_transformer"  # "distilroberta-base" # Choose the model you want
 batch_size = 32  # The larger you select this, the better the results (usually). But it requires more GPU memory