HabanaAI · RafLit · Jan 20, 2025 · Jan 20, 2025 · Jan 23, 2025 · Jan 23, 2025
@@ -135,7 +135,12 @@ def forward(
         kv_cache: torch.Tensor,
         attn_metadata: AttentionMetadata,
     ) -> torch.Tensor:
-        if self.use_output:
+
+        if self.use_direct_call:
+            return self.impl.forward(query, key, value, kv_cache,
+                                     attn_metadata, self._k_scale,
+                                     self._v_scale)
+        elif self.use_output:
             output = torch.empty_like(query)
             hidden_size = query.size(-1)
             # Reshape the query, key, and value tensors.
@@ -147,19 +152,12 @@ def forward(
                 key = key.view(-1, self.num_kv_heads, self.head_size)
             if value is not None:
                 value = value.view(-1, self.num_kv_heads, self.head_size)
-            if self.use_direct_call:
-                unified_attention_with_output(query, key, value, output,
-                                              self.layer_name)
-            else:
-                torch.ops.vllm.unified_attention_with_output(
-                    query, key, value, output, self.layer_name)
+            torch.ops.vllm.unified_attention_with_output(
+                query, key, value, output, self.layer_name)
             return output.view(-1, hidden_size)
         else:
-            if self.use_direct_call:
-                return unified_attention(query, key, value, self.layer_name)
-            else:
-                return torch.ops.vllm.unified_attention(
-                    query, key, value, self.layer_name)
+            return torch.ops.vllm.unified_attention(query, key, value,
+                                                    self.layer_name)
 
     def extra_repr(self) -> str:
         s = f"head_size={self.impl.head_size}"  # type: ignore