Fix compilation for sha1

RustCrypto · Feb 22, 2025 · 9db411c · 9db411c
1 parent ceeb2ca
commit 9db411c
Show file tree

Hide file tree

Showing 2 changed files with 213 additions and 209 deletions.
diff --git a/sha1/src/compress/aarch64.rs b/sha1/src/compress/aarch64.rs
@@ -14,162 +14,164 @@ cpufeatures::new!(sha1_hwcap, "sha2");
 unsafe fn compress_sha1_neon(state: &mut [u32; 5], blocks: &[[u8; 64]]) {
     use core::arch::aarch64::*;
 
-    let mut abcd = vld1q_u32(state.as_ptr());
-    let mut e0 = state[4];
-    let [k0, k1, k2, k3] = K.map(|k| vdupq_n_u32(k));
-    let (mut e1, mut tmp0, mut tmp1);
-
-    for block in blocks {
-        let abcd_cpy = abcd;
-        let e0_cpy = e0;
-
-        // Load and reverse byte order
-        let [mut msg0, mut msg1, mut msg2, mut msg3] = [0, 1, 2, 3].map(|i| {
-            let p = block.as_ptr().add(16 * i);
-            vreinterpretq_u32_u8(vrev32q_u8(vld1q_u8(p)))
-        });
-
-        tmp0 = vaddq_u32(msg0, k0);
-        tmp1 = vaddq_u32(msg1, k0);
-
-        // Rounds 0-3
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1cq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg2, k0);
-        msg0 = vsha1su0q_u32(msg0, msg1, msg2);
-
-        // Rounds 4-7
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1cq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg3, k0);
-        msg0 = vsha1su1q_u32(msg0, msg3);
-        msg1 = vsha1su0q_u32(msg1, msg2, msg3);
-
-        // Rounds 8-11
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1cq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg0, k0);
-        msg1 = vsha1su1q_u32(msg1, msg0);
-        msg2 = vsha1su0q_u32(msg2, msg3, msg0);
-
-        // Rounds 12-15
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1cq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg1, k1);
-        msg2 = vsha1su1q_u32(msg2, msg1);
-        msg3 = vsha1su0q_u32(msg3, msg0, msg1);
-
-        // Rounds 16-19
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1cq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg2, k1);
-        msg3 = vsha1su1q_u32(msg3, msg2);
-        msg0 = vsha1su0q_u32(msg0, msg1, msg2);
-
-        // Rounds 20-23
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg3, k1);
-        msg0 = vsha1su1q_u32(msg0, msg3);
-        msg1 = vsha1su0q_u32(msg1, msg2, msg3);
-
-        // Rounds 24-27
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg0, k1);
-        msg1 = vsha1su1q_u32(msg1, msg0);
-        msg2 = vsha1su0q_u32(msg2, msg3, msg0);
-
-        // Rounds 28-31
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg1, k1);
-        msg2 = vsha1su1q_u32(msg2, msg1);
-        msg3 = vsha1su0q_u32(msg3, msg0, msg1);
-
-        // Rounds 32-35
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg2, k2);
-        msg3 = vsha1su1q_u32(msg3, msg2);
-        msg0 = vsha1su0q_u32(msg0, msg1, msg2);
-
-        // Rounds 36-39
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg3, k2);
-        msg0 = vsha1su1q_u32(msg0, msg3);
-        msg1 = vsha1su0q_u32(msg1, msg2, msg3);
-
-        // Rounds 40-43
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1mq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg0, k2);
-        msg1 = vsha1su1q_u32(msg1, msg0);
-        msg2 = vsha1su0q_u32(msg2, msg3, msg0);
-
-        // Rounds 44-47
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1mq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg1, k2);
-        msg2 = vsha1su1q_u32(msg2, msg1);
-        msg3 = vsha1su0q_u32(msg3, msg0, msg1);
-
-        // Rounds 48-51
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1mq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg2, k2);
-        msg3 = vsha1su1q_u32(msg3, msg2);
-        msg0 = vsha1su0q_u32(msg0, msg1, msg2);
-
-        // Rounds 52-55
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1mq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg3, k3);
-        msg0 = vsha1su1q_u32(msg0, msg3);
-        msg1 = vsha1su0q_u32(msg1, msg2, msg3);
-
-        // Rounds 56-59
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1mq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg0, k3);
-        msg1 = vsha1su1q_u32(msg1, msg0);
-        msg2 = vsha1su0q_u32(msg2, msg3, msg0);
-
-        // Rounds 60-63
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg1, k3);
-        msg2 = vsha1su1q_u32(msg2, msg1);
-        msg3 = vsha1su0q_u32(msg3, msg0, msg1);
-
-        // Rounds 64-67
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e0, tmp0);
-        tmp0 = vaddq_u32(msg2, k3);
-        msg3 = vsha1su1q_u32(msg3, msg2);
-
-        // Rounds 68-71
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e1, tmp1);
-        tmp1 = vaddq_u32(msg3, k3);
-
-        // Rounds 72-75
-        e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e0, tmp0);
-
-        // Rounds 76-79
-        e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
-        abcd = vsha1pq_u32(abcd, e1, tmp1);
-
-        // Update state
-        abcd = vaddq_u32(abcd_cpy, abcd);
-        e0 = e0.wrapping_add(e0_cpy);
-    }
+    unsafe {
+        let mut abcd = vld1q_u32(state.as_ptr());
+        let mut e0 = state[4];
+        let [k0, k1, k2, k3] = K.map(|k| vdupq_n_u32(k));
+        let (mut e1, mut tmp0, mut tmp1);
+
+        for block in blocks {
+            let abcd_cpy = abcd;
+            let e0_cpy = e0;
+
+            // Load and reverse byte order
+            let [mut msg0, mut msg1, mut msg2, mut msg3] = [0, 1, 2, 3].map(|i| {
+                let p = block.as_ptr().add(16 * i);
+                vreinterpretq_u32_u8(vrev32q_u8(vld1q_u8(p)))
+            });
+
+            tmp0 = vaddq_u32(msg0, k0);
+            tmp1 = vaddq_u32(msg1, k0);
+
+            // Rounds 0-3
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1cq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg2, k0);
+            msg0 = vsha1su0q_u32(msg0, msg1, msg2);
+
+            // Rounds 4-7
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1cq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg3, k0);
+            msg0 = vsha1su1q_u32(msg0, msg3);
+            msg1 = vsha1su0q_u32(msg1, msg2, msg3);
+
+            // Rounds 8-11
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1cq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg0, k0);
+            msg1 = vsha1su1q_u32(msg1, msg0);
+            msg2 = vsha1su0q_u32(msg2, msg3, msg0);
+
+            // Rounds 12-15
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1cq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg1, k1);
+            msg2 = vsha1su1q_u32(msg2, msg1);
+            msg3 = vsha1su0q_u32(msg3, msg0, msg1);
+
+            // Rounds 16-19
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1cq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg2, k1);
+            msg3 = vsha1su1q_u32(msg3, msg2);
+            msg0 = vsha1su0q_u32(msg0, msg1, msg2);
+
+            // Rounds 20-23
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg3, k1);
+            msg0 = vsha1su1q_u32(msg0, msg3);
+            msg1 = vsha1su0q_u32(msg1, msg2, msg3);
+
+            // Rounds 24-27
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg0, k1);
+            msg1 = vsha1su1q_u32(msg1, msg0);
+            msg2 = vsha1su0q_u32(msg2, msg3, msg0);
+
+            // Rounds 28-31
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg1, k1);
+            msg2 = vsha1su1q_u32(msg2, msg1);
+            msg3 = vsha1su0q_u32(msg3, msg0, msg1);
+
+            // Rounds 32-35
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg2, k2);
+            msg3 = vsha1su1q_u32(msg3, msg2);
+            msg0 = vsha1su0q_u32(msg0, msg1, msg2);
+
+            // Rounds 36-39
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg3, k2);
+            msg0 = vsha1su1q_u32(msg0, msg3);
+            msg1 = vsha1su0q_u32(msg1, msg2, msg3);
+
+            // Rounds 40-43
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1mq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg0, k2);
+            msg1 = vsha1su1q_u32(msg1, msg0);
+            msg2 = vsha1su0q_u32(msg2, msg3, msg0);
+
+            // Rounds 44-47
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1mq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg1, k2);
+            msg2 = vsha1su1q_u32(msg2, msg1);
+            msg3 = vsha1su0q_u32(msg3, msg0, msg1);
+
+            // Rounds 48-51
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1mq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg2, k2);
+            msg3 = vsha1su1q_u32(msg3, msg2);
+            msg0 = vsha1su0q_u32(msg0, msg1, msg2);
+
+            // Rounds 52-55
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1mq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg3, k3);
+            msg0 = vsha1su1q_u32(msg0, msg3);
+            msg1 = vsha1su0q_u32(msg1, msg2, msg3);
+
+            // Rounds 56-59
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1mq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg0, k3);
+            msg1 = vsha1su1q_u32(msg1, msg0);
+            msg2 = vsha1su0q_u32(msg2, msg3, msg0);
+
+            // Rounds 60-63
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg1, k3);
+            msg2 = vsha1su1q_u32(msg2, msg1);
+            msg3 = vsha1su0q_u32(msg3, msg0, msg1);
+
+            // Rounds 64-67
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e0, tmp0);
+            tmp0 = vaddq_u32(msg2, k3);
+            msg3 = vsha1su1q_u32(msg3, msg2);
+
+            // Rounds 68-71
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e1, tmp1);
+            tmp1 = vaddq_u32(msg3, k3);
+
+            // Rounds 72-75
+            e1 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e0, tmp0);
+
+            // Rounds 76-79
+            e0 = vsha1h_u32(vgetq_lane_u32(abcd, 0));
+            abcd = vsha1pq_u32(abcd, e1, tmp1);
+
+            // Update state
+            abcd = vaddq_u32(abcd_cpy, abcd);
+            e0 = e0.wrapping_add(e0_cpy);
+        }
 
-    // Save state
-    vst1q_u32(state.as_mut_ptr(), abcd);
-    state[4] = e0;
+        // Save state
+        vst1q_u32(state.as_mut_ptr(), abcd);
+        state[4] = e0;
+    }
 }
 
 pub fn compress(state: &mut [u32; 5], blocks: &[[u8; 64]]) {