|
|
--- |
|
|
base_model: |
|
|
- beomi/Llama-3-Open-Ko-8B |
|
|
- meta-llama/Meta-Llama-3-8B-Instruct |
|
|
- meta-llama/Meta-Llama-3-8B |
|
|
library_name: transformers |
|
|
tags: |
|
|
- mergekit |
|
|
- merge |
|
|
license: other |
|
|
license_name: llama3 |
|
|
language: |
|
|
- ko |
|
|
--- |
|
|
# Llama-3-Ko-8B-dare-ties |
|
|
|
|
|
This is the series of 'Base + Language + Instruct', chat vector and various methods in mergekit. |
|
|
Thanks again! @beomi |
|
|
|
|
|
For more details about what is this model and why I'm doing this, check out this model's info [Instruct-vector-diff](https://huggingface.co/kuotient/Llama-3-8B-Instruct-vector-diff) |
|
|
|
|
|
| Model | Merge Method | Score(but what?) | |
|
|
|---|---|---| |
|
|
| [beomi/Llama-3-Open-Ko-8B-Instruct-preview](https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview) | chat vector | - | |
|
|
| [kuotient/Llama-3-Ko-8B-ties](https://huggingface.co/kuotient/Llama-3-Ko-8B-ties) | Ties | - | |
|
|
| [kuotient/Llama-3-Ko-8B-dare-ties](https://huggingface.co/kuotient/Llama-3-Ko-8B-dare-ties) | Dare-ties | - | |
|
|
| [kuotient/Llama-3-Ko-8B-TA](https://huggingface.co/kuotient/Llama-3-Ko-8B-TA) | Task Arithmetic(maybe...? not sure about this) | - | |
|
|
| WIP | Model stock(I don't read this paper yet but still) | - | |
|
|
|
|
|
The original paper author claims density should be around 0.2~0.3, but in reality high number gets some better result. You should try other params for better result than this! |
|
|
|
|
|
```python |
|
|
messages = [ |
|
|
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."}, |
|
|
{"role": "user", "content": "νΌλ³΄λμΉ μμ΄μ΄ λμΌ? κ·Έλ¦¬κ³ νΌλ³΄λμΉ μμ΄μ λν΄ νμ΄μ¬ μ½λλ₯Ό μ§μ€λ³Όλ?"}, |
|
|
] |
|
|
--- |
|
|
νΌλ³΄λμΉ μμ΄μ μνμμ κ°μ₯ μ λͺ
ν μμ΄ μ€ νλμ
λλ€. νΌλ³΄λμΉ μμ΄μ λ€μκ³Ό κ°μ κ·μΉμΌλ‘ μμ±λ©λλ€. |
|
|
|
|
|
1. 첫 λ²μ§Έ μλ 0, λ λ²μ§Έ μλ 1 |
|
|
2. μ΄νμ μλ μ΄μ λ μμ ν©μΌλ‘ κ³μ° |
|
|
|
|
|
μλ₯Ό λ€μ΄, νΌλ³΄λμΉ μμ΄μ 첫 10κ° μλ λ€μκ³Ό κ°μ΅λλ€. |
|
|
|
|
|
0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55,... |
|
|
|
|
|
μ΄ μμ΄μ λ§€μ° λΉ λ₯΄κ² 컀μ§κΈ° λλ¬Έμ, νΌλ³΄λμΉ μμ΄μ κ³μ°νλ λ°λ μΌλ°μ μΌλ‘ μ§μ ν¨μλ₯Ό μ¬μ©ν©λλ€. |
|
|
|
|
|
νμ΄μ¬ μ½λλ₯Ό μμ±νλ©΄ λ€μκ³Ό κ°μ΅λλ€. |
|
|
|
|
|
`(ν¬λ§·μ΄ κΉ¨μ Έμ..π€)`` |
|
|
def fibonacci(n): |
|
|
if n <= 1: |
|
|
return n |
|
|
else: |
|
|
return fibonacci(n-1) + fibonacci(n-2) |
|
|
|
|
|
for i in range(10): |
|
|
print(fibonacci(i)) |
|
|
`π€`` |
|
|
|
|
|
μ΄ μ½λλ νΌλ³΄λμΉ μμ΄μ 첫 10κ° μλ₯Ό κ³μ°ν©λλ€. κ²°κ³Όλ λ€μκ³Ό κ°μ΅λλ€. |
|
|
|
|
|
0 |
|
|
1 |
|
|
1 |
|
|
2 |
|
|
3 |
|
|
5 |
|
|
8 |
|
|
13 |
|
|
21 |
|
|
``` |
|
|
|
|
|
```python |
|
|
messages = [ |
|
|
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."}, |
|
|
{"role": "user", "content": "νκ΅μ μ ν νλ²μ λν΄μ μμΈν μ€λͺ
ν΄μ£ΌμΈμ."}, |
|
|
] |
|
|
--- |
|
|
νκ΅μ μ ν νλ²μ 1948λ
7μ 17μΌ μ νκ΅νμμ μκ²°νμ¬ 1948λ
7μ 27μΌ κ³΅ν¬λ λνλ―Όκ΅ νλ²μ μ΄μμ
λλ€. μ ν νλ²μ λνλ―Όκ΅μ νλ²μ κΈ°λ³Έμ§μλ₯Ό κ·μ νλ λ¬Έμλ‘, λνλ―Όκ΅μ κ΅νΈ, μν , κ΅λ―Ό, κ΅κ°μ νν, μ λΆμ μ‘°μ§, κ΅λ―Όμ κΆλ¦¬μ μ무, λ²λ₯ μ μ μ λ±μ λν΄ κ·μ νκ³ μμ΅λλ€. μ ν νλ²μ 1948λ
7μ 17μΌ μ νκ΅νμμ μκ²°λμ΄ 1948λ
7μ 27μΌ κ³΅ν¬λ μ΄ν 1952λ
12μ 5μΌλΆν° 1962λ
12μ 5μΌκΉμ§ μ μ©λμμ΅λλ€. |
|
|
|
|
|
μ ν νλ²μ μ£Όμ λ΄μ©μ λ€μκ³Ό κ°μ΅λλ€. |
|
|
|
|
|
1. κ΅νΈ: λνλ―Όκ΅ |
|
|
2. μν : λνλ―Όκ΅μ μν λ 38λμ μ΄λΆκ³Ό μ΄λ¨μΌλ‘ λλμ΄μ Έ μμΌλ©°, 38λμ μ΄λΆμ μν λ λνλ―Όκ΅μ μν λ‘ μΈμ νκ³ μμ΅λλ€. |
|
|
3. κ΅λ―Ό: λνλ―Όκ΅μ κ΅λ―Όμ λͺ¨λ μ¬λμΌλ‘, κ΅μ μ κ°μ§ μ¬λκ³Ό κ΅μ μ κ°μ§ μ¬λμ νμμΌλ‘ ꡬμ±λ©λλ€. |
|
|
4. κ΅κ°μ νν: λνλ―Όκ΅μ 민주곡νκ΅μΌλ‘, λν΅λ Ήμ΄ κ΅κ°μ μλ°μΌλ‘μ ν΅μΉν©λλ€. |
|
|
5. μ λΆμ μ‘°μ§: λν΅λ Ή, κ΅λ¬΄μ΄λ¦¬, κ΅λ¬΄μμ λ±μΌλ‘ ꡬμ±λλ μ λΆλ₯Ό λκ³ μμ΅λλ€. |
|
|
6. κ΅λ―Όμ κΆλ¦¬μ μ무: λνλ―Όκ΅μ κ΅λ―Όμ νλ±ν κΆλ¦¬λ₯Ό κ°μ§λ©°, κ΅μ , μΈκΆ, μ¬μ°κΆ, ννμ μμ λ± κΈ°λ³Έμ κΆλ¦¬λ₯Ό 보μ₯λ°μ΅λλ€. |
|
|
7. λ²λ₯ μ μ μ : λνλ―Όκ΅μ λ²λ₯ μ κ΅νμμ μ μ νκ³ , λν΅λ Ήμ΄ 곡ν¬ν©λλ€. |
|
|
|
|
|
μ΄μ κ°μ μ ν νλ²μ λνλ―Όκ΅μ νλ²μ κΈ°λ³Έμ§μλ₯Ό κ·μ νλ λ¬Έμλ‘, λνλ―Όκ΅μ κ΅νΈ, μν , κ΅λ―Ό, κ΅κ°μ νν, μ λΆμ μ‘°μ§, κ΅λ―Όμ κΆλ¦¬μ μ무, λ²λ₯ μ μ μ λ±μ λν΄ κ·μ νκ³ μμ΅λλ€. |
|
|
``` |
|
|
Repetitive results, but I **really really** like this output tho |
|
|
```python |
|
|
messages = [ |
|
|
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."}, |
|
|
{"role": "user", "content": "μΈμ’
λμμ μ§νμ λ§₯λΆ λμ§ μ¬κ±΄μ λν΄μ μκ³ μμ΄?"}, |
|
|
] |
|
|
--- |
|
|
λ€, μΈμ’
λμμ΄ μ§νμ μμ λ§₯λΆμ λμ‘λ€λ μ΄μΌκΈ°λ μ¬μ€μ΄ μλλλ€. μ΄ μ΄μΌκΈ°λ μΈμ’
λμμ΄ νλ―Όμ μ μ°½μ λΉμμ μΌνλ‘, λΉμμ νμλ€μ΄ νλ―Όμ μμ μ°½μ μ λ°λνλ μ견μ λ΄μΈμ μΈμ’
λμμκ² νμλ₯Ό νμ, μΈμ’
λμμ΄ κ·Έλ€μ μ§μ±
νλ©΄μ νλ―Όμ μ μ°½μ λ₯Ό κ°μ‘°ν μΌνλ‘ μ ν΄μ§λλ€. νμ§λ§ μ΄ μΌνλ μ€μ λ‘ μΌμ΄λ μΌμ μλλ©°, νλ―Όμ μ μ°½μ μ λ°λνλ νμλ€μ μ€μ λ‘ μμμΌλ©°, μΈμ’
λμλ νλ―Όμ μ μ°½μ λ₯Ό κ°μ‘°ν μ μ μμ΅λλ€. μ΄ μ΄μΌκΈ°λ νλμ λ§λ€μ΄μ§ κ²μΌλ‘ μΆμ λ©λλ€. |
|
|
|
|
|
μΈμ’
λμμ νλ―Όμ μ μ°½μ μ λν΄ λ§€μ° μ΄μλ₯Ό λ΄λ³΄μκ³ , νλ―Όμ μμ΄ μ°½μ λκΈ° μ μλ νκΈμ μ¬μ©νμ§ μμμ΅λλ€. νλ―Όμ μμ΄ μ°½μ λ νμλ νλ―Όμ μμ κΈ°λ°ν νκΈμ μ¬μ©νμ΅λλ€. νλ―Όμ μμ 1443λ
λΆν° 1446λ
κΉμ§ 4λ
λμμ κ±Έμ³ μ°½μ λμμ΅λλ€. μ΄ μκΈ°μ μΈμ’
λμμ νλ―Όμ μμ μ°½μ μ λ§€μ° κ΄μ¬μ κ°μ§κ³ μμμΌλ©°, νλ―Όμ μμ μ°½μ λ₯Ό μν΄ νμλ€μ λΆλ¬ λͺ¨μ νλ―Όμ μμ μ°½μ μ μ°Έμ¬νλλ‘ νμ΅λλ€. νλ―Όμ μμ΄ μ°½μ λ νμλ νλ―Όμ μμ κΈ°λ°ν νκΈμ μ¬μ©νκ³ , νκΈμ μ¬μ©νλ κ²μ μ₯λ €νμ΅λλ€. |
|
|
|
|
|
μΈμ’
λμμ νλ―Όμ μμ μ°½μ λ₯Ό ν΅ν΄ νκΈμ μ¬μ©νκ² λλ©΄, λͺ¨λ μ¬λλ€μ΄ μ½κ² μ½κ³ μ°λ κΈμ μ¬μ©ν μ μκ² λκ³ , μ΄λ λλΌμ λ°μ μ μν΄ λ§€μ° μ€μν μΌμ΄λΌκ³ μκ°νμ΅λλ€. λν, νλ―Όμ μμ μ°½μ λ₯Ό ν΅ν΄ νκΈμ μ¬μ©νκ² λλ©΄, λλΌμ ν΅μΌμ μν΄ λ§€μ° μ€μν μΌμ΄λΌκ³ μκ°νμ΅λλ€. μ΄μ λ°λΌ μΈμ’
λμμ νλ―Όμ μμ μ°½μ μ λ§μ λ
Έλ ₯μ κΈ°μΈμμ΅λλ€. |
|
|
|
|
|
μΈμ’
λμμ΄ νλ―Όμ μμ μ°½μ μ κ΄μ¬μ κ°μ‘λ€λ κ²μ μμ¬μ μΌλ‘ νμΈν μ μμ΅λλ€. νμ§λ§ μΈμ’
λμ |
|
|
``` |
|
|
|
|
|
```python |
|
|
messages = [ |
|
|
{"role": "system", "content": "μΉμ ν μ±λ΄μΌλ‘μ μλλ°©μ μμ²μ μ΅λν μμΈνκ³ μΉμ νκ² λ΅νμ. λͺ¨λ λλ΅μ νκ΅μ΄(Korean)μΌλ‘ λλ΅ν΄μ€."}, |
|
|
{"role": "user", "content": "λλ μ€λ μ¬κ³Ό 5κ°λ₯Ό κ°κ³ μμ΄. κ·Έλ¦¬κ³ μ΄μ λλ μ¬κ³Ό 2κ°λ₯Ό λ¨Ήμμ§. λ΄κ° μ§κΈ κ°μ§ μ¬κ³Όλ λͺ κ°μ§?"}, |
|
|
] |
|
|
--- |
|
|
λ€, μ€λ μ¬κ³Ό 5κ° κ°μ§κ³ μκ³ μ΄μ 2κ° λ¨ΉμμΌλ, μ§κΈ κ°μ§κ³ μλ μ¬κ³Όλ 5κ°μμ 2κ°λ₯Ό λΊ 3κ°μ
λλ€! ππ |
|
|
|
|
|
(μ΄ κ²½μ°μλ 5κ°μμ 2κ°λ₯Ό λΊ κ²°κ³ΌμΈ 3κ°κ° μ λ΅μ
λλ€.) |
|
|
``` |
|
|
|
|
|
# Llama-3-Ko-8B-dare-ties |
|
|
|
|
|
This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit). |
|
|
|
|
|
## Merge Details |
|
|
### Merge Method |
|
|
|
|
|
This model was merged using the [DARE](https://arxiv.org/abs/2311.03099) [TIES](https://arxiv.org/abs/2306.01708) merge method using [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) as a base. |
|
|
|
|
|
### Models Merged |
|
|
|
|
|
The following models were included in the merge: |
|
|
* [beomi/Llama-3-Open-Ko-8B](https://huggingface.co/beomi/Llama-3-Open-Ko-8B) |
|
|
* [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) |
|
|
|
|
|
### Configuration |
|
|
|
|
|
The following YAML configuration was used to produce this model: |
|
|
|
|
|
```yaml |
|
|
models: |
|
|
- model: meta-llama/Meta-Llama-3-8B |
|
|
# no parameters necessary for base model |
|
|
- model: meta-llama/Meta-Llama-3-8B-Instruct |
|
|
parameters: |
|
|
density: 0.53 |
|
|
weight: 0.5 |
|
|
- model: beomi/Llama-3-Open-Ko-8B |
|
|
parameters: |
|
|
density: 0.53 |
|
|
weight: 0.5 |
|
|
merge_method: dare_ties |
|
|
base_model: meta-llama/Meta-Llama-3-8B |
|
|
dtype: bfloat16 |
|
|
``` |