Spaces:

aditizy
/

QuizCraftAi

Sleeping

App Files Files Community

Vriti29 commited on Jul 13

Commit

fc668c7

1 Parent(s): 47fbcd8

Create all-mpnet-base-v2

Browse files

Files changed (1) hide show

sentence-transformers/all-mpnet-base-v2 +84 -0

sentence-transformers/all-mpnet-base-v2 ADDED Viewed

	@@ -0,0 +1,84 @@

+# -*- coding: utf-8 -*-
+"""Untitled8.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1JMKmuuP0equrOr6l6oQVQbpbBnGTGvcc
+"""
+!pip install sentence-transformers
+from google.colab import files
+import pandas as pd
+import random
+uploaded = files.upload()
+file_name = list(uploaded.keys())[0]
+df = pd.read_csv(file_name)
+# Preview
+print("📄 Preview of training data:")
+print(df.head())
+print(f"\n✅ Loaded {len(df)} training pairs.")
+from sentence_transformers import InputExample
+train_examples = [
+    InputExample(texts=[row["text1"], row["text2"]], label=float(row["score"]))
+    for _, row in df.iterrows()
+]
+from sentence_transformers import SentenceTransformer, losses
+from torch.utils.data import DataLoader
+model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2")
+train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16)
+train_loss = losses.CosineSimilarityLoss(model)
+model.fit(
+    train_objectives=[(train_dataloader, train_loss)],
+    epochs=1,                # Increase to 3–5 for better results
+    warmup_steps=10,         # Usually 10% of steps per epoch
+    output_path="fine-tuned-mpnet-model"
+)
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("fine-tuned-mpnet-model")
+sentence = "This is a test sentence."
+embedding = model.encode(sentence)
+print(embedding.shape)
+fine_tuned_model = SentenceTransformer("fine-tuned-mpnet-model")
+# Example usage
+embedding = fine_tuned_model.encode("This is a test sentence.")
+print("🔢 Embedding shape:", embedding.shape)
+import os
+print(os.listdir("fine-tuned-mpnet-model"))
+from sentence_transformers import SentenceTransformer
+from sentence_transformers.util import cos_sim
+# Load base and fine-tuned models
+base_model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2")
+ft_model = SentenceTransformer("fine-tuned-mpnet-model")
+from sentence_transformers import SentenceTransformer
+from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
+from torch.utils.data import DataLoader
+fine_tuned_model = SentenceTransformer("fine-tuned-mpnet-model")
+sentence = "This is a test sentence."
+embedding = fine_tuned_model.encode(sentence)
+print("🔢 Embedding shape:", embedding.shape)
+"""You can now use the `fine_tuned_model` to generate embeddings for any text data. For example, you can use these embeddings for tasks like semantic search, clustering, or classification."""
+from tqdm import tqdm
+import numpy as np
+from sentence_transformers.util import cos_sim
+from sklearn.metrics import mean_squared_error
+from scipy.stats import spearmanr
+def evaluate_model(model, name):
+    embeddings1 = model.encode(sentences1, convert_to_tensor=True)
+    embeddings2 = model.encode(sentences2, convert_to_tensor=True)
+    similarities = cos_sim(embeddings1, embeddings2).diagonal().cpu().numpy()
+    mse = mean_squared_error(true_scores, similarities)
+    spearman_corr, _ = spearmanr(true_scores, similarities)
+    print(f"\n📋 Evaluation: {name}")
+    print(f"📐 CosineSim vs Human Scores: ")
+    print(f"  • MSE:         {mse:.4f}")
+    print(f"  • Spearman R:  {spearman_corr:.4f}")
+    return similarities
+# Extract sentences and scores from the DataFrame
+sentences1 = df['text1'].tolist()
+sentences2 = df['text2'].tolist()
+true_scores = df['score'].tolist()
+# Evaluate both models
+_ = evaluate_model(base_model, "Base MPNET")
+_ = evaluate_model(ft_model, "Fine-Tuned MPNET")