p2o6e100
/

ASVDLlama3.1-4B-Instruct-v1

Model card Files Files and versions

p2o6e100 commited on Nov 16, 2024

Commit

541e21b

·

1 Parent(s): b6dcc99

fix split error for attention

Files changed (1) hide show

modeling_llama.py +1 -1

modeling_llama.py CHANGED Viewed

@@ -456,7 +456,7 @@ class LlamaAttention(nn.Module):
             bsz, q_len, self.num_heads + 2 * self.num_key_value_heads, self.head_dim
         ).transpose(1, 2)
         query_states, key_states, value_states = torch.split(
-            qkv_states, [self.num_heads, self.num_heads + self.num_key_value_heads], dim=1
         )
         if position_embeddings is None:

             bsz, q_len, self.num_heads + 2 * self.num_key_value_heads, self.head_dim
         ).transpose(1, 2)
         query_states, key_states, value_states = torch.split(
+            qkv_states, [self.num_heads, self.num_key_value_heads, self.num_key_value_heads], dim=1
         )
         if position_embeddings is None: