Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2503.09573

Diffusion Language Models

Structured Denoising Diffusion Models in Discrete State-Spaces

Paper • 2107.03006 • Published Jul 7, 2021 • 1
Simplified and Generalized Masked Diffusion for Discrete Data

Paper • 2406.04329 • Published Jun 6, 2024 • 8
Simple and Effective Masked Diffusion Language Models

Paper • 2406.07524 • Published Jun 11, 2024 • 12
Large Language Diffusion Models

Paper • 2502.09992 • Published Feb 14 • 123

Image Generation

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Paper • 2506.07977 • Published Jun 9 • 41
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

Paper • 2506.07986 • Published Jun 9 • 19
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Paper • 2506.06276 • Published Jun 6 • 26
Aligning Latent Spaces with Flow Priors

Paper • 2506.05240 • Published Jun 5 • 27

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

Paper • 2505.15045 • Published May 21 • 54
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

Paper • 2505.16990 • Published May 22 • 22
D-AR: Diffusion via Autoregressive Models

Paper • 2505.23660 • Published May 29 • 34

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74
Sadeed: Advancing Arabic Diacritization Through Small Language Model

Paper • 2504.21635 • Published Apr 30 • 59
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

Paper • 2509.21320 • Published Sep 25 • 101
Seedream 4.0: Toward Next-generation Multimodal Image Generation

Paper • 2509.20427 • Published Sep 24 • 80

https://m-arriola.com/bd3lms/

kuleshov-group/bd3lm-owt-block_size16

Text Generation • 0.2B • Updated Apr 13 • 191 • 16
kuleshov-group/bd3lm-owt-block_size4

Text Generation • 0.2B • Updated Apr 13 • 1.47k • 3
kuleshov-group/bd3lm-owt-block_size8

Text Generation • 0.2B • Updated Apr 13 • 170 • 1
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74

Simple and Effective Masked Diffusion Language Models

Paper • 2406.07524 • Published Jun 11, 2024 • 12
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74

Large Language Diffusion Models

Paper • 2502.09992 • Published Feb 14 • 123
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74
MMaDA: Multimodal Large Diffusion Language Models

Paper • 2505.15809 • Published May 21 • 97
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

Paper • 2505.15045 • Published May 21 • 54

Music generation

Making Multimodal Generation Easier: When Diffusion Models Meet LLMs

Paper • 2310.08949 • Published Oct 13, 2023 • 1
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models

Paper • 2308.04729 • Published Aug 9, 2023 • 32
PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation

Paper • 2411.08307 • Published Nov 13, 2024 • 7

RuCCoD: Towards Automated ICD Coding in Russian

Paper • 2502.21263 • Published Feb 28 • 133
Unified Reward Model for Multimodal Understanding and Generation

Paper • 2503.05236 • Published Mar 7 • 122
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching

Paper • 2503.05179 • Published Mar 7 • 46
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

Paper • 2503.05592 • Published Mar 7 • 27

foundational models

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published May 7, 2024 • 24
Titans: Learning to Memorize at Test Time

Paper • 2501.00663 • Published Dec 31, 2024 • 29
Transformer^2: Self-adaptive LLMs

Paper • 2501.06252 • Published Jan 9 • 54
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Paper • 2502.11089 • Published Feb 16 • 166

Diffusion Language Models

Structured Denoising Diffusion Models in Discrete State-Spaces

Paper • 2107.03006 • Published Jul 7, 2021 • 1
Simplified and Generalized Masked Diffusion for Discrete Data

Paper • 2406.04329 • Published Jun 6, 2024 • 8
Simple and Effective Masked Diffusion Language Models

Paper • 2406.07524 • Published Jun 11, 2024 • 12
Large Language Diffusion Models

Paper • 2502.09992 • Published Feb 14 • 123

Simple and Effective Masked Diffusion Language Models

Paper • 2406.07524 • Published Jun 11, 2024 • 12
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74

Image Generation

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Paper • 2506.07977 • Published Jun 9 • 41
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

Paper • 2506.07986 • Published Jun 9 • 19
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Paper • 2506.06276 • Published Jun 6 • 26
Aligning Latent Spaces with Flow Priors

Paper • 2506.05240 • Published Jun 5 • 27

Large Language Diffusion Models

Paper • 2502.09992 • Published Feb 14 • 123
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74
MMaDA: Multimodal Large Diffusion Language Models

Paper • 2505.15809 • Published May 21 • 97
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

Paper • 2505.15045 • Published May 21 • 54

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

Paper • 2505.15045 • Published May 21 • 54
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

Paper • 2505.16990 • Published May 22 • 22
D-AR: Diffusion via Autoregressive Models

Paper • 2505.23660 • Published May 29 • 34

Music generation

Making Multimodal Generation Easier: When Diffusion Models Meet LLMs

Paper • 2310.08949 • Published Oct 13, 2023 • 1
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models

Paper • 2308.04729 • Published Aug 9, 2023 • 32
PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation

Paper • 2411.08307 • Published Nov 13, 2024 • 7

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74
Sadeed: Advancing Arabic Diacritization Through Small Language Model

Paper • 2504.21635 • Published Apr 30 • 59
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

Paper • 2509.21320 • Published Sep 25 • 101
Seedream 4.0: Toward Next-generation Multimodal Image Generation

Paper • 2509.20427 • Published Sep 24 • 80

RuCCoD: Towards Automated ICD Coding in Russian

Paper • 2502.21263 • Published Feb 28 • 133
Unified Reward Model for Multimodal Understanding and Generation

Paper • 2503.05236 • Published Mar 7 • 122
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching

Paper • 2503.05179 • Published Mar 7 • 46
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

Paper • 2503.05592 • Published Mar 7 • 27

https://m-arriola.com/bd3lms/

kuleshov-group/bd3lm-owt-block_size16

Text Generation • 0.2B • Updated Apr 13 • 191 • 16
kuleshov-group/bd3lm-owt-block_size4

Text Generation • 0.2B • Updated Apr 13 • 1.47k • 3
kuleshov-group/bd3lm-owt-block_size8

Text Generation • 0.2B • Updated Apr 13 • 170 • 1
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Paper • 2503.09573 • Published Mar 12 • 74

foundational models

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published May 7, 2024 • 24
Titans: Learning to Memorize at Test Time

Paper • 2501.00663 • Published Dec 31, 2024 • 29
Transformer^2: Self-adaptive LLMs

Paper • 2501.06252 • Published Jan 9 • 54
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Paper • 2502.11089 • Published Feb 16 • 166

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs