Update README.md
Browse files
README.md
CHANGED
|
@@ -60,6 +60,8 @@ license_link: LICENSE
|
|
| 60 |
</div>
|
| 61 |
</center>
|
| 62 |
|
|
|
|
|
|
|
| 63 |
# LFM2-350M-PII-Extract-JP
|
| 64 |
|
| 65 |
Based on [LFM2-350M](https://huggingface.co/LiquidAI/LFM2-350M), this checkpoint is designed to **extract personally identifiable information (PII) from Japanese text and output it in JSON format.**
|
|
@@ -143,3 +145,102 @@ If the same entity appears multiple times with slight formatting variations, the
|
|
| 143 |
## 📬 Contact
|
| 144 |
|
| 145 |
If you are interested in custom solutions with edge deployment, please contact [our sales team](https://www.liquid.ai/contact).
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 60 |
</div>
|
| 61 |
</center>
|
| 62 |
|
| 63 |
+
([_日本語はこちらへ_](#lfm2-350m-pii-extract-jp-日本語))
|
| 64 |
+
|
| 65 |
# LFM2-350M-PII-Extract-JP
|
| 66 |
|
| 67 |
Based on [LFM2-350M](https://huggingface.co/LiquidAI/LFM2-350M), this checkpoint is designed to **extract personally identifiable information (PII) from Japanese text and output it in JSON format.**
|
|
|
|
| 145 |
## 📬 Contact
|
| 146 |
|
| 147 |
If you are interested in custom solutions with edge deployment, please contact [our sales team](https://www.liquid.ai/contact).
|
| 148 |
+
|
| 149 |
+
# LFM2-350M-PII-Extract-JP (日本語)
|
| 150 |
+
|
| 151 |
+
[**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語テキストから個人を特定できる情報(PII)を抽出し、JSON 形式で出力する**ために設計されています。
|
| 152 |
+
出力結果は、契約書、電子メール、個人の医療報告書、保険請求書などの機密情報を、デバイス上で直接マスキングするために使用できます。
|
| 153 |
+
|
| 154 |
+
特に以下の情報を抽出するように訓練されています:
|
| 155 |
+
* 住所/所在地(JSON キー: `address`)
|
| 156 |
+
* 企業/研究機関/組織名(JSON キー: `company_name`)
|
| 157 |
+
* メールアドレス(JSON キー: `email_address`)
|
| 158 |
+
* 人名(JSON キー: `human_name`)
|
| 159 |
+
* 電話番号(JSON キー: `phone_number`)
|
| 160 |
+
|
| 161 |
+
これらを日本語の文書やテキストから抽出します。
|
| 162 |
+
|
| 163 |
+
---
|
| 164 |
+
|
| 165 |
+
### デモ
|
| 166 |
+
|
| 167 |
+
<video src="https://cdn-uploads.huggingface.co/production/uploads/65d6b6c1a07ad79084a0d214/z5og84hVLGgIm1Z2c98PP.mp4" controls preload></video>
|
| 168 |
+
|
| 169 |
+
---
|
| 170 |
+
|
| 171 |
+
## 抽出品質
|
| 172 |
+
|
| 173 |
+
[**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) からランダムに抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル(思考モード有効)など、複数のモデルと比較評価を行いました。
|
| 174 |
+
**LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をデバイス上で実現します!
|
| 175 |
+
|
| 176 |
+

|
| 177 |
+
|
| 178 |
+
> [!NOTE]
|
| 179 |
+
> 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII エンティティ抽出性能を発揮しますが、私たちの主な目的は、**柔軟でコミュニティ主導の基盤モデルを提供すること**です。
|
| 180 |
+
> これにより、プライバシー重視の高品質なマスキングシステムを容易に構築できます。
|
| 181 |
+
>
|
| 182 |
+
> ただし、ベースモデルとして今後さらなる発展の余地も残されています。特に以下のような専門的な利用ケースに向けて:
|
| 183 |
+
> - 組織固有の識別番号の抽出対応
|
| 184 |
+
> - 生年月日、パスポート番号などの追加カテゴリへの拡張
|
| 185 |
+
> - 特定カテゴリにおける抽出性能のさらなる向上
|
| 186 |
+
>
|
| 187 |
+
> これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
|
| 188 |
+
> このモデルは最終形ではなく、**実運用ニーズに応じた多様な PII 抽出モデル群を生み出す触媒**であると位置づけています。
|
| 189 |
+
|
| 190 |
+
---
|
| 191 |
+
|
| 192 |
+
## モデル詳細
|
| 193 |
+
|
| 194 |
+
**生成パラメータ**: `temperature=0` の貪欲デコード(greedy decoding)の使用を強く推奨します。
|
| 195 |
+
|
| 196 |
+
**システムプロンプト**: このチェックポイントでは以下のシステムプロンプトが**必須**です:
|
| 197 |
+
|
| 198 |
+
Extract , <company_name>, <email_address>, <human_name>, <phone_number>
|
| 199 |
+
|
| 200 |
+
モデルは特定のエンティティのみを抽出するように設定することも可能です。
|
| 201 |
+
例: `Extract <human_name>` と設定した場合、人名のみを出力します。
|
| 202 |
+
|
| 203 |
+
> [!WARNING]
|
| 204 |
+
> ⚠️ 最良の性能を得るには、上記のように **エンティティカテゴリをアルファベット順** に並べてください。
|
| 205 |
+
|
| 206 |
+
---
|
| 207 |
+
|
| 208 |
+
**チャットテンプレート**
|
| 209 |
+
LFM2-PII-Extract-JP は以下のような ChatML 風テンプレートを使用します:
|
| 210 |
+
|
| 211 |
+
<|startoftext|><|im_start|>system
|
| 212 |
+
Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
|
| 213 |
+
<|im_start|>user
|
| 214 |
+
こんにちは、ラミンさんに B200 GPU を 10000 台 至急請求してください。連絡先は celegans@liquid.ai (電話番号010-000-0000) で、これは C. elegans 線虫に着想を得たニューラルネットワークアーキテクチャを 今すぐ構築するために不可欠です。<|im_end|>
|
| 215 |
+
<|im_start|>assistant
|
| 216 |
+
{“address”: [], “company_name”: [], “email_address”: [“celegans@liquid.ai”], “human_name”: [“ラミン”], “phone_number”: [“010-000-0000”]}<|im_end|>
|
| 217 |
+
|
| 218 |
+
このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
|
| 219 |
+
|
| 220 |
+
> [!WARNING]
|
| 221 |
+
> ⚠️ このモデルは **単一ターンの会話** に最適化されています。
|
| 222 |
+
|
| 223 |
+
---
|
| 224 |
+
|
| 225 |
+
**出力形式**
|
| 226 |
+
|
| 227 |
+
モデルは、指定されたエンティティを含む JSON オブジェクトを出力します。
|
| 228 |
+
各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
|
| 229 |
+
該当する場合は、そのカテゴリごとに抽出された文字列のリストを返します。
|
| 230 |
+
|
| 231 |
+
モデルは、**テキスト中に現れる形で正確にエンティティを出力**するように訓練されています。
|
| 232 |
+
同じエンティティが複数回、わずかに異なる書式で現れる場合でも、すべてのバリエーションを出力し、マスキング時に完全一致で処理できるようにします。
|
| 233 |
+
|
| 234 |
+
---
|
| 235 |
+
|
| 236 |
+
## 🏃 LFM2 の実行方法
|
| 237 |
+
|
| 238 |
+
- Hugging Face: [LFM2-350M](https://huggingface.co/LiquidAI/LFM2-350M)
|
| 239 |
+
- llama.cpp: [LFM2-350M-PII-Extract-JP-GGUF](https://huggingface.co/LiquidAI/LFM2-350M-PII-Extract-JP-GGUF)
|
| 240 |
+
- LEAP: [LEAP モデルライブラリ](https://leap.liquid.ai/models?model=lfm2-350m-pii-extract-jp)
|
| 241 |
+
|
| 242 |
+
---
|
| 243 |
+
|
| 244 |
+
## 📬 お問い合わせ
|
| 245 |
+
|
| 246 |
+
エッジ環境への導入を含むカスタムソリューションにご興味がある方は、[営業チーム](https://www.liquid.ai/ja/contact)までお問い合わせください。
|