Attention Mask Patterns

Using FlexAttention to compute attention with different masking patterns.

The speedup over F.sdpa/xFormers and FA2 tends to increase with increasing sequence length. Timing plots are shown for different sequence lengths. It is mentioned in the title of the plot.

Causal mask

Mask	Execution Time

Causal sliding window mask

Mask	Execution Time

Bidirectional sliding window mask

Mask	Execution Time

Bidirectional dilated sliding window mask

Mask	Execution Time

Bidirectional global + local sliding window attention mask

Mask	Execution Time

PrefixLM mask

Mask	Execution Time

Multi-document bidirectional mask

Mask	Execution Time

Multi-document causal mask

Mask	Execution Time

Multi-document prefixLM mask

Mask	Execution Time

Stand-alone Self-Attention mask

(Reference - attention-gym repo)

Mask	Execution Time

Requirements

Pytorch Nightly (for FlexAttention, to be released with Pytorch 2.5)
Refer requirements.txt for other requirements

Name		Name	Last commit message	Last commit date
Latest commit History 43 Commits
plots		plots
.gitignore		.gitignore
README.md		README.md
bidirectional_dilated_sliding_window.py		bidirectional_dilated_sliding_window.py
bidirectional_local_sliding_window_global_attn.py		bidirectional_local_sliding_window_global_attn.py
bidirectional_sliding_window.py		bidirectional_sliding_window.py
causal.py		causal.py
causal_sliding_window.py		causal_sliding_window.py
multi_document_bidrectional_mask.py		multi_document_bidrectional_mask.py
multi_document_causal_mask.py		multi_document_causal_mask.py
multi_document_prefix_lm_mask.py		multi_document_prefix_lm_mask.py
prefix_lm.py		prefix_lm.py
requirements.txt		requirements.txt
standalone_self_attention.py		standalone_self_attention.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Attention Mask Patterns

Causal mask

Causal sliding window mask

Bidirectional sliding window mask

Bidirectional dilated sliding window mask

Bidirectional global + local sliding window attention mask

PrefixLM mask

Multi-document bidirectional mask

Multi-document causal mask

Multi-document prefixLM mask

Stand-alone Self-Attention mask

Requirements

About

Languages

shreyansh26/Attention-Mask-Patterns

Folders and files

Latest commit

History

Repository files navigation

Attention Mask Patterns

Causal mask

Causal sliding window mask

Bidirectional sliding window mask

Bidirectional dilated sliding window mask

Bidirectional global + local sliding window attention mask

PrefixLM mask

Multi-document bidirectional mask

Multi-document causal mask

Multi-document prefixLM mask

Stand-alone Self-Attention mask

Requirements

About

Topics

Resources

Stars

Watchers

Forks

Languages