Spaces:

ethanlshen
/

SuperposedDecoding

Runtime error

App Files Files Community

ethanlshen commited on Jun 25, 2024

Commit

8e6ca38

verified ·

1 Parent(s): 02f45d3

Changed parallel to nn

Browse files

Files changed (1) hide show

superposed/llama/superposed_model.py +20 -28

superposed/llama/superposed_model.py CHANGED Viewed

@@ -199,39 +199,31 @@ class Attention(nn.Module):
         """
         super().__init__()
         self.n_kv_heads = args.n_heads if args.n_kv_heads is None else args.n_kv_heads
-        model_parallel_size = fs_init.get_model_parallel_world_size()
         self.n_local_heads = args.n_heads // model_parallel_size
         self.n_local_kv_heads = self.n_kv_heads // model_parallel_size
         self.n_rep = self.n_local_heads // self.n_local_kv_heads
         self.head_dim = args.dim // args.n_heads
-        self.wq = ColumnParallelLinear(
             args.dim,
             args.n_heads * self.head_dim,
             bias=False,
-            gather_output=False,
-            init_method=lambda x: x,
         )
-        self.wk = ColumnParallelLinear(
             args.dim,
             self.n_kv_heads * self.head_dim,
-            bias=False,
-            gather_output=False,
-            init_method=lambda x: x,
         )
-        self.wv = ColumnParallelLinear(
             args.dim,
             self.n_kv_heads * self.head_dim,
-            bias=False,
-            gather_output=False,
-            init_method=lambda x: x,
         )
-        self.wo = RowParallelLinear(
             args.n_heads * self.head_dim,
             args.dim,
-            bias=False,
-            input_is_parallel=True,
-            init_method=lambda x: x,
         )
         self.cache_k = torch.zeros(
@@ -336,14 +328,14 @@ class FeedForward(nn.Module):
             hidden_dim = int(ffn_dim_multiplier * hidden_dim)
         hidden_dim = multiple_of * ((hidden_dim + multiple_of - 1) // multiple_of)
-        self.w1 = ColumnParallelLinear(
-            dim, hidden_dim, bias=False, gather_output=False, init_method=lambda x: x
         )
-        self.w2 = RowParallelLinear(
-            hidden_dim, dim, bias=False, input_is_parallel=True, init_method=lambda x: x
         )
-        self.w3 = ColumnParallelLinear(
-            dim, hidden_dim, bias=False, gather_output=False, init_method=lambda x: x
         )
     def forward(self, x):
@@ -435,12 +427,12 @@ class SuperposedTransformer(nn.Module):
         self.vocab_size = params.vocab_size
         self.n_layers = params.n_layers
-        self.tok_embeddings = ParallelEmbedding(
-            params.vocab_size, params.dim, init_method=lambda x: x
         )
-        self.tok_mixing_embeddings = ColumnParallelLinear(
-            params.vocab_size, params.dim, bias=False, init_method=lambda x: x
         ) # dims here are formality (what matters is below)
         self.tok_mixing_embeddings.weight = nn.Parameter(self.tok_embeddings.weight.T)
@@ -449,8 +441,8 @@ class SuperposedTransformer(nn.Module):
             self.layers.append(MixedTransformerBlock(layer_id, params))
         self.norm = RMSNorm(params.dim, eps=params.norm_eps)
-        self.output = ColumnParallelLinear(
-            params.dim, params.vocab_size, bias=False, init_method=lambda x: x
         )
         self.freqs_cis = precompute_freqs_cis(

         """
         super().__init__()
         self.n_kv_heads = args.n_heads if args.n_kv_heads is None else args.n_kv_heads
+        model_parallel_size = 1
         self.n_local_heads = args.n_heads // model_parallel_size
         self.n_local_kv_heads = self.n_kv_heads // model_parallel_size
         self.n_rep = self.n_local_heads // self.n_local_kv_heads
         self.head_dim = args.dim // args.n_heads
+        self.wq = nn.Linear(
             args.dim,
             args.n_heads * self.head_dim,
             bias=False,
         )
+        self.wk = nn.Linear(
             args.dim,
             self.n_kv_heads * self.head_dim,
+            bias=False
         )
+        self.wv = nn.Linear(
             args.dim,
             self.n_kv_heads * self.head_dim,
+            bias=False
         )
+        self.wo = nn.Linear(
             args.n_heads * self.head_dim,
             args.dim,
+            bias=False
         )
         self.cache_k = torch.zeros(
             hidden_dim = int(ffn_dim_multiplier * hidden_dim)
         hidden_dim = multiple_of * ((hidden_dim + multiple_of - 1) // multiple_of)
+        self.w1 = nn.Linear(
+            dim, hidden_dim, bias=False
         )
+        self.w2 = nn.Linear(
+            hidden_dim, dim, bias=False
         )
+        self.w3 = nn.Linear(
+            dim, hidden_dim, bias=False
         )
     def forward(self, x):
         self.vocab_size = params.vocab_size
         self.n_layers = params.n_layers
+        self.tok_embeddings = nn.Embedding(
+            params.vocab_size, params.dim
         )
+        self.tok_mixing_embeddings = nn.Linear(
+            params.vocab_size, params.dim, bias=False
         ) # dims here are formality (what matters is below)
         self.tok_mixing_embeddings.weight = nn.Parameter(self.tok_embeddings.weight.T)
             self.layers.append(MixedTransformerBlock(layer_id, params))
         self.norm = RMSNorm(params.dim, eps=params.norm_eps)
+        self.output = nn.Linear(
+            params.dim, params.vocab_size, bias=False
         )
         self.freqs_cis = precompute_freqs_cis(