DepthRaster: Use vmaxvq_s32 to implement AnyZeroSignBit more efficiently on ARM64 #19892

hrydgard · 2025-01-19T16:49:55Z

Turns out ARM64 has some neat horizontal reduce instructions. Thanks ryg for the pointer.

fp64 · 2025-01-20T03:20:45Z

For basic NEON version, wouldn't something like vshrn_n_u32 (or maybe even vshrn_n_u64) work (similar to what is described here: https://community.arm.com/arm-community-blogs/b/infrastructure-solutions-blog/posts/porting-x86-vector-bitmask-optimizations-to-arm-neon with vshrn_n_u16)? Perhaps even for more general SignBits(), e.g. (mask4x16*0x0001000200040008ull)>>48.
I don't know much about ARM, though.

hrydgard · 2025-01-20T07:30:25Z

Yes absolutely. Just haven't gotten around to testing it

Use vmaxvq_s32 to implement AnyZeroSignBit more efficiently on ARM64

a5116e1

hrydgard added this to the v1.19.0 milestone Jan 19, 2025

hrydgard merged commit 9ab8875 into master Jan 20, 2025
19 checks passed

hrydgard deleted the minor-depth-opt branch January 20, 2025 00:53

Provide feedback