
Sakana AI
@SakanaAILabs
この度、新手法「TAID」を用いて学習された小規模日本語言語モデル「TinySwallow-1.5B」を公開しました。 https://sakana.ai/taid-jp 私たちは、大規模言語モデル(LLM)の知識を効率的に小規模モデルへ転移させる新しい知識蒸留手法「TAID (Temporally Adaptive Interpolated Distillation)」を開発しました。この手法では、小規模モデルの学習進度に合わせて大規模モデルの知識を転移させることで、効果的な知識転移を実現します。この研究は機械学習分野の国際会議ICLR 2025に採択されました。 論文: https://arxiv.org/abs/2501.169... GitHub: https://github.com/SakanaAI/TA... そして、TAIDを用いて32BパラメータのLLMから約1/20の大きさの1.5Bパラメータの小規模言語モデルへ知識転移を行い、同規模のモデルの中で最高性能となる日本語モデル「TinySwallow-1.5B」を作り出すことに成功しました。 小規模サイズである「TinySwallow-1.5B」は、外部APIなどを介さずお手元のスマートフォンやPCで完結したチャットが可能です。下記のウェブアプリのリンクから、ブラウザ上で動作するチャットアプリをお試しいただけます。 デモ: https://pub.sakana.ai/tinyswal... GitHub: https://github.com/SakanaAI/Ti... モデル: https://huggingface.co/collect...
また、完全なローカル実行を希望される方向けに、モデルの重みを含むself-contained版のウェブアプリも用意しています。 GitHub: https://github.com/SakanaAI/Ti... こちらは、Pythonベースのシンプルなインターフェースで、ネットワーク接続を一切必要とせずにローカルマシンからモデルを直接読み込んでチャットができます。ぜひローカル上で小型言語モデルとのチャットを実感してみてください。 小規模なTinySwallowを用いて、以下のような様々な応用が可能です。 ・社内文書や個人メモに基づいた、その人だけのカスタマイズされたプライベートなAIアシスタント ・データを一切外部に送信せず、ローカルで完結するAI業務支援 ・オフラインゲームにおけるAIキャラクターの実装 ・小型のAIエージェントの開発 動画では、iPhone上でのブログ要約の実際の生成結果を示しています。開発者の皆様のアイデアで、TinySwallowを用いた新しい応用が生まれることを楽しみにしています!