Resources

View closed (4)

Problem with model

#22 opened about 6 hours ago by

dwojcik

Why does the KV cache occupy so much GPU memory?

#21 opened about 8 hours ago by

yyg201708

How to stop thinking?

#20 opened about 9 hours ago by

sha9921

Excellent version

🔥 2

#19 opened about 10 hours ago by

luxiangyu

Cannot run vLLM on DGX Spark: ImportError: libcudart.so.12

#18 opened about 13 hours ago by

yyg201708

Update README.md

#17 opened about 14 hours ago by

dougyster1

Adding SGLang Docker

#16 opened about 14 hours ago by

dougyster1

I hope GLM can release version 4.6 Air with Chinese thought processes, as version 4.7 seems to be written entirely in English. Alternatively, I'd like to release version 4.8 Air directly.

👀 🤗 3

#15 opened about 16 hours ago by

mimeng1990

Installation Video and Testing - Step by Step

👍 1

#13 opened about 20 hours ago by

fahdmirzac

llama.cpp inference - 20 times (!) slower than OSS 20 on a RTX 5090

➕ 1

#12 opened 1 day ago by

cmp-nct

We are so back!

❤️ 5

#10 opened 1 day ago by

Carnyzzle

Is a dedicated Tech Report planned for GLM-4.7-Flash?

#8 opened 1 day ago by

NodeLinker

FP8

#7 opened 1 day ago by

Daemontatox

Recommended sampling parameters

🤝 1

#6 opened 1 day ago by

sszymczyk

Thank you!

🔥 13

#4 opened 1 day ago by

mav23

Enormous KV-cache size?

👍 ➕ 4

#3 opened 1 day ago by

nephepritou

Base model

🔥 6

#2 opened 1 day ago by

tcpmux

Performance Discussion

👀 2

#1 opened 1 day ago by

IndenScale