Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.15115

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B.

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen/Qwen2.5-0.5B

Text Generation • 0.5B • Updated Sep 25, 2024 • 695k • 337
Qwen/Qwen2.5-0.5B-Instruct

Text Generation • 0.5B • Updated Sep 25, 2024 • 1.97M • 403
Qwen/Qwen2.5-1.5B

Text Generation • 2B • Updated Oct 8, 2024 • 1.04M • • 148

Reverse-Engineered Reasoning for Open-Ended Generation

Paper • 2509.06160 • Published Sep 7 • 149
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 37
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 151

A very long nameA very long nameA very long nameA very long

A very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very

nvidia/OpenMathReasoning

Viewer • Updated May 27 • 5.68M • 14.4k • 366
zwhe99/DeepMath-103K

Viewer • Updated May 29 • 103k • 15.7k • 275
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated May 1 • 7.59k • 1.22k
Running

Featured

808

Qwen3 Demo

📊

808

Generate responses to text prompts in a chat interface

wisdom of the ancient

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14 • 301
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22 • 429
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 259

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 23
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 85
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 151
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

text-generation

KurniaKadir/hrmy

Text Generation • Updated Aug 14
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Paper • 2504.01990 • Published Mar 31 • 299

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 626
meta-llama/Llama-4-Scout-17B-16E-Instruct

Any-to-Any • 109B • Updated May 22 • 205k • 1.15k
keras-io/GauGAN-Image-generation

Updated Jul 5, 2024 • 23 • 4

Wan-AI/Wan2.1-I2V-14B-720P

Image-to-Video • Updated Feb 26 • 8.75k • • 548
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B.

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen/Qwen2.5-0.5B

Text Generation • 0.5B • Updated Sep 25, 2024 • 695k • 337
Qwen/Qwen2.5-0.5B-Instruct

Text Generation • 0.5B • Updated Sep 25, 2024 • 1.97M • 403
Qwen/Qwen2.5-1.5B

Text Generation • 2B • Updated Oct 8, 2024 • 1.04M • • 148

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 23
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 85
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 151
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

Reverse-Engineered Reasoning for Open-Ended Generation

Paper • 2509.06160 • Published Sep 7 • 149
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

text-generation

KurniaKadir/hrmy

Text Generation • Updated Aug 14
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Paper • 2504.01990 • Published Mar 31 • 299

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 37
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 151

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

A very long nameA very long nameA very long nameA very long

A very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very

nvidia/OpenMathReasoning

Viewer • Updated May 27 • 5.68M • 14.4k • 366
zwhe99/DeepMath-103K

Viewer • Updated May 29 • 103k • 15.7k • 275
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated May 1 • 7.59k • 1.22k
Running

Featured

808

Qwen3 Demo

📊

808

Generate responses to text prompts in a chat interface

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 626
meta-llama/Llama-4-Scout-17B-16E-Instruct

Any-to-Any • 109B • Updated May 22 • 205k • 1.15k
keras-io/GauGAN-Image-generation

Updated Jul 5, 2024 • 23 • 4

wisdom of the ancient

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14 • 301
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22 • 429
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 259

Wan-AI/Wan2.1-I2V-14B-720P

Image-to-Video • Updated Feb 26 • 8.75k • • 548
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Previous
1
2
3
...
7
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs