Vikras — Experimental Family of Language Models
Содержание
- Коротко о проекте
- Текущий релиз: HCT/YeAM
- HCT (архитектура) / YeAM (инвариант реализации)
- Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)
- MixP_4.9b_S: детали
- Планы развития
- Использование
- Заключение
Коротко о проекте
Vikra — экспериментальное семейство языковых моделей, исследующее влияние:
- геометрии представлений
- квантования
- гибридных мерджей
на численную динамику трансформеров.
Проект Vikras не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента.
- Vikra_% — имя конкретной модели
- Vikras — семейство экспериментов
- S / M / L — степень агрессивности и распределения битности
- MixP / FullP / HCT — схемы и инварианты квантования/мерджей
Текущий релиз: HCT/YeAM
Релизы
- Vikra-HCT-YeAM-PhiMma-1B
- Vikra-HCT-YeAM-LLaGemma-1B
- Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
- Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
HCT (архитектура) / YeAM (инвариант реализации)
HCT — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами.
YeAM (Yet Another Merge) — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения.
YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает:
- прямой weight-to-weight мердж
- направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам
- дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM
- мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата
Математически YeAM работает в реальной 4D-постановке: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение.
Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)
Краткое описание
12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Экспериментальный режим анизотропного квантования
Полная версия мерджа (без квантования): https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP
GGUF-квант: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf
MixP_4.9b_S: детали
Архитектура (для MixP релиза)
| Параметр | Значение |
|---|---|
| Architecture | Mistral-based |
| Params | ~12.25B |
| Layers | 40 |
| Hidden size | 5120 |
| FFN size | 14336 |
| Heads | 32 (8 KV heads, GQA) |
| Context | 1,024,000 |
| Vocab | 131,072 (Tekken BPE) |
| RoPE theta | 1,000,000 |
MixP_4.9b_S — схема квантования
Гибридная mixed precision схема с покомпонентным распределением типов.
| Tensor group | Quant type | BPW |
|---|---|---|
| token_embd, output | BF16 | 16 |
| attn_norm, ffn_norm, output_norm | F32 | 32 |
| attn_q | Q4_K | 4.5 |
| attn_k | Q5_K | 5.5 |
| attn_v | Q3_K | 3.44 |
| attn_output | Q4_K | 4.5 |
| ffn_gate | Q3_K | 3.44 |
| ffn_up | Q5_K | 5.5 |
| ffn_down | Q5_K / Q6_K | 5.5–6.56 |
Итого:
- Quantized layers only: ~4.89 BPW
- Full model average: ~6.11 BPW
- File size: ~8.71 GB
Ключевая идея MixP
MixP — это не «сжать всё одинаково».
Это анизотропное квантование информационных каналов:
• Q/K сохраняются в более высокой точности • V и gate намеренно квантованы до Q3_K • Нормы и выходной слой остаются в высокой точности
Такое распределение изменяет численную динамику модели:
• усиливается структурная sparsification • меняется распределение норм скрытых представлений • меняется энтропия логитов • появляется режимная чувствительность
Это не новая архитектура. Это изменение численной геометрии существующей.
Наблюдаемые эффекты
- сохранение top-1 предсказаний на простых задачах
- рост entropy без разрушения максимальной вероятности
- расширение hidden norm на сложных задачах
- бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны
Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества.
math_subattention (рабочая гипотеза)
В экспериментах наблюдается эффект, условно обозначенный как:
“math_subattention”
Под этим подразумевается:
• уменьшение вклада мелких компонент V • усиление доминирующих направлений residual stream • повышенная инерция предыдущего токена • снижение частоты мелких переключений логитов
Это не claim о новой архитектуре. Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization.
Термин используется описательно.
Перплексия
Метрика измерена на wikitext-2-raw-test (full):
| Model | Precision | PPL |
|---|---|---|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
| Baseline BF16 | Full | 6.02 ± 0.03 |
Планы развития
Планируются подсемейства:
- MixP — Mixed Precision
- FullP — Full Precision версии
- HCT — multi-merge эксперименты
- S / M / L — варианты распределения битности
Все модели семейства называются Vikra. Репозиторий — Vikras.
Использование
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
Заключение
Vikras — исследовательский проект.
Он исследует, как меняется поведение трансформера, если его:
- сжимать
- смешивать
- изменять численную геометрию
Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать.
Vikras — Experimental Family of Language Models (EN)
Table of Contents
- Project overview
- Current Release: HCT/YeAM
- HCT (architecture) / YeAM (implementation invariant)
- Previous Release: Vikra MixedPrc (MixP_4.9b_S)
- MixP_4.9b_S: details
- Roadmap
- Usage
- Closing
Project overview
Vikra is an experimental family of language models exploring how:
- representation geometry
- quantization
- hybrid merges
affect transformer numerical dynamics.
The Vikras project is not tied to a single base model or architecture. It is a family of models unified by a numerical invariance philosophy of experimentation.
- Vikra_% — a specific model
- Vikras — the experimental family
- S / M / L — aggressiveness and bit allocation variants
- MixP / FullP / HCT — quantization / merge invariants
Current Release: HCT/YeAM
Releases
- Vikra-HCT-YeAM-PhiMma-1B
- Vikra-HCT-YeAM-LLaGemma-1B
- Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
- Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
HCT (architecture) / YeAM (implementation invariant)
HCT is an architectural invariant. In English: Heterogeneous Compatibility Transfer — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families.
YeAM (Yet Another Merge) is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging.
YeAM produces a standard HF output (safetensors + index) and supports:
- direct weight-to-weight merging
- targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources
- an additional Attention-layer merge as a second technique on top of YeAM
- merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format
YeAM operates in a real 4D formulation: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging.
Previous Release: Vikra MixedPrc (MixP_4.9b_S)
Short Description
12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Experimental anisotropic quantization regime
Full merge version (non-quantized): https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP
GGUF quant: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf
MixP_4.9b_S: details
Architecture (for the MixP release)
| Parameter | Value |
|---|---|
| Architecture | Mistral-based |
| Params | ~12.25B |
| Layers | 40 |
| Hidden size | 5120 |
| FFN size | 14336 |
| Heads | 32 (8 KV heads, GQA) |
| Context | 1,024,000 |
| Vocab | 131,072 (Tekken BPE) |
| RoPE theta | 1,000,000 |
MixP_4.9b_S — Quantization Scheme
A hybrid mixed-precision scheme with per-tensor type allocation.
| Tensor group | Quant type | BPW |
|---|---|---|
| token_embd, output | BF16 | 16 |
| attn_norm, ffn_norm, output_norm | F32 | 32 |
| attn_q | Q4_K | 4.5 |
| attn_k | Q5_K | 5.5 |
| attn_v | Q3_K | 3.44 |
| attn_output | Q4_K | 4.5 |
| ffn_gate | Q3_K | 3.44 |
| ffn_up | Q5_K | 5.5 |
| ffn_down | Q5_K / Q6_K | 5.5–6.56 |
Totals:
- Quantized layers only: ~4.89 BPW
- Full model average: ~6.11 BPW
- File size: ~8.71 GB
Core idea of MixP
MixP is not “compress everything equally”.
It is anisotropic quantization of information channels:
- Q/K remain in higher precision
- V and gate are intentionally quantized down to Q3_K
- norms and the output layer remain in higher precision
This redistribution changes the numerical dynamics of the model:
- increased structural sparsification
- shifts in hidden norm distribution
- changes in logit entropy
- regime sensitivity
This is not a new architecture. It is a modification of the numerical geometry of an existing one.
Observed effects
- preservation of top-1 predictions on simple tasks
- increased entropy without collapse of maximum probability
- expansion of hidden norms on complex tasks
- mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive
These effects are interpreted as a geometric shift of representations rather than a universal quality improvement.
math_subattention (working hypothesis)
In experiments, an effect informally referred to as:
“math_subattention”
This describes:
- reduced contribution of small V components
- dominance of stronger residual directions
- increased inertia from previous token state
- reduced frequency of small logit switching
This is not an architectural claim. It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization.
The term is used descriptively.
Perplexity
Measured on wikitext-2-raw-test (full):
| Model | Precision | PPL |
|---|---|---|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
| Baseline BF16 | Full | 6.02 ± 0.03 |
Roadmap
Planned subfamilies:
- MixP — Mixed Precision
- FullP — Full Precision variants
- HCT — multi-merge experiments
- S / M / L — different bit allocation regimes
All models in the family are called Vikra. The repository is Vikras.
Usage
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
Closing
Vikras is a research project.
It explores how transformer behavior changes when we:
- compress
- merge
- alter numerical geometry
If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome.
- Downloads last month
- 1,389