trl-internal-testing
/

tiny-DeepseekV3ForCausalLM

Text Generation

text-generation-inference

Model card Files Files and versions

qgallouedec HF Staff commited on Sep 24

Commit

c40ec2c

·

verified ·

1 Parent(s): d3f2cf3

Upload DeepseekV3ForCausalLM

Files changed (2) hide show

config.json +5 -33
model.safetensors +2 -2

config.json CHANGED Viewed

@@ -4,15 +4,9 @@
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
-  "auto_map": {
-    "AutoConfig": "configuration_deepseek.DeepseekV3Config",
-    "AutoModel": "modeling_deepseek.DeepseekV3Model",
-    "AutoModelForCausalLM": "modeling_deepseek.DeepseekV3ForCausalLM"
-  },
   "bos_token_id": 0,
-  "dtype": "bfloat16",
   "eos_token_id": 1,
-  "ep_size": 1,
   "first_k_dense_replace": 3,
   "head_dim": 64,
   "hidden_act": "silu",
@@ -20,10 +14,9 @@
   "initializer_range": 0.02,
   "intermediate_size": 32,
   "kv_lora_rank": 512,
-  "max_position_embeddings": 163840,
   "model_type": "deepseek_v3",
   "moe_intermediate_size": 2048,
-  "moe_layer_freq": 1,
   "n_group": 8,
   "n_routed_experts": 256,
   "n_shared_experts": 1,
@@ -32,41 +25,20 @@
   "num_experts_per_tok": 8,
   "num_hidden_layers": 2,
   "num_key_value_heads": 2,
-  "num_nextn_predict_layers": 1,
   "pretraining_tp": 1,
   "q_lora_rank": 1536,
   "qk_head_dim": 192,
   "qk_nope_head_dim": 128,
   "qk_rope_head_dim": 64,
-  "quantization_config": {
-    "activation_scheme": "dynamic",
-    "fmt": "e4m3",
-    "quant_method": "fp8",
-    "weight_block_size": [
-      128,
-      128
-    ]
-  },
   "rms_norm_eps": 1e-06,
   "rope_interleave": true,
-  "rope_scaling": {
-    "beta_fast": 32.0,
-    "beta_slow": 1.0,
-    "factor": 40.0,
-    "mscale": 1.0,
-    "mscale_all_dim": 1.0,
-    "original_max_position_embeddings": 4096,
-    "rope_type": "yarn",
-    "type": "yarn"
-  },
-  "rope_theta": 10000,
   "routed_scaling_factor": 2.5,
-  "scoring_func": "sigmoid",
   "tie_word_embeddings": false,
   "topk_group": 4,
-  "topk_method": "noaux_tc",
   "transformers_version": "4.57.0.dev0",
   "use_cache": true,
   "v_head_dim": 128,
-  "vocab_size": 129280
 }

   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 0,
+  "dtype": "float32",
   "eos_token_id": 1,
   "first_k_dense_replace": 3,
   "head_dim": 64,
   "hidden_act": "silu",
   "initializer_range": 0.02,
   "intermediate_size": 32,
   "kv_lora_rank": 512,
+  "max_position_embeddings": 4096,
   "model_type": "deepseek_v3",
   "moe_intermediate_size": 2048,
   "n_group": 8,
   "n_routed_experts": 256,
   "n_shared_experts": 1,
   "num_experts_per_tok": 8,
   "num_hidden_layers": 2,
   "num_key_value_heads": 2,
   "pretraining_tp": 1,
   "q_lora_rank": 1536,
   "qk_head_dim": 192,
   "qk_nope_head_dim": 128,
   "qk_rope_head_dim": 64,
   "rms_norm_eps": 1e-06,
   "rope_interleave": true,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
   "routed_scaling_factor": 2.5,
   "tie_word_embeddings": false,
   "topk_group": 4,
   "transformers_version": "4.57.0.dev0",
   "use_cache": true,
   "v_head_dim": 128,
+  "vocab_size": 128815
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63ec4dbad221f2b4bade90d8ff8cd7b1b563fdf60324dc3225fd9308d1c85aa4
-size 11050936

 version https://git-lfs.github.com/spec/v1
+oid sha256:4029cdf7a5f9a0a7844863ac6bcf33b70438c50a78d7960d3b7ba479c2557dc6
+size 22069200