【arXiv速報】Magma: ランダムマスキングでAdamを19%超え — LLM訓練の新常識

📊 NVA評価

項目	スコア	理由
新規性 (Novelty)	★★★★★	「更新をランダムに捨てる」という逆転の発想
価値 (Value)	★★★★★	同じ計算コストで19%改善は破格
実行可能性 (Actionability)	★★★★★	ドロップイン置き換え、追加コストゼロ

総合スコア: 5.0/5.0 — 自前モデル訓練を考えるソロビルダー必携の知識

概要

機械学習の最適化で10年以上の王者だったAdamに、予想外の挑戦者が現れた：

Magma（Momentum-aligned Gradient Masking）

核心アイデア：

パラメータ更新をランダムにマスク（一部を捨てる）するだけで、学習が速くなる

直感に反するが、論文の実験結果は明確：

モデルサイズ	Adam比	Muon比
1Bパラメータ	-19% perplexity	-9% perplexity

技術的ブレークスルー

なぜ「捨てる」と良くなるのか

研究チームは、ランダムマスキングが曲率依存の幾何学的正則化を誘発することを発見。

簡単に言うと：

更新をランダムに間引くことで、最適化の軌道が滑らかになる
滑らかな軌道 → 局所最適に陥りにくい → より良い解に到達

Magmaのシンプルな仕組み

# 疑似コード
def magma_step(gradient, momentum, mask_rate=0.5):
    # 1. 通常のモメンタム更新を計算
    momentum = beta * momentum + gradient
    
    # 2. モメンタムと勾配の「向き」を比較
    alignment = sign(momentum) * sign(gradient)
    
    # 3. 向きが揃っているパラメータを優先的に更新
    # （揃っていないものはマスク）
    update = momentum * alignment_mask(alignment)
    
    return update

ポイント：

モメンタムと勾配の向きが一致しているパラメータのみ更新
一致していない = 「迷っている」方向 = 更新をスキップ
これにより確信度の高い更新のみが適用される

実験結果の詳細

LLM事前学習での比較

オプティマイザ	100Mモデル	1Bモデル	計算オーバーヘッド
Adam	baseline	baseline	0%
Muon	-8%	-11%	+5%
Magma	-15%	-19%	<1%

なぜMuonより優れているか

Muon（最近注目の最適化手法）は行列のスペクトル分解を使う分、計算コストが高い。

Magmaはマスクするだけなので：

追加計算がほぼゼロ
実装も単純
にも関わらず性能で上回る

ソロビルダーへの示唆

1. Fine-tuning時の直接適用

最も即座に使える応用：

# HuggingFace Transformers での適用イメージ
from magma import MagmaOptimizer

# 従来
optimizer = AdamW(model.parameters(), lr=1e-4)

# Magmaに置き換え
optimizer = MagmaOptimizer(model.parameters(), lr=1e-4)

同じ学習ステップ数で、より良いモデルが得られる可能性。

2. 訓練コスト削減の道筋

従来:

目標perplexity達成 → 1000 GPU時間

Magma採用後:

同じperplexity達成 → 約810 GPU時間（-19%）

クラウドGPUを使うソロビルダーにとって、直接的なコスト削減。

3. 小規模モデルの相対的価値向上

Magmaの改善率は小規模モデルでも有効。

つまり：

大企業は大規模モデルをより効率的に訓練
ソロビルダーも小規模モデルをより効率的に訓練
相対的な競争力は変わらないか、むしろ小規模側が有利

4. 実験の勇気

この論文から学べる最大の教訓：

「更新を捨てる」という、一見非合理的なアイデアが最高性能を出した

ソロビルダーとして：

「常識」を疑う価値がある
シンプルなアイデアほど強力な場合がある
実験して確かめるしかない

今後の展開予測

短期（3-6ヶ月）

PyTorch/JAXの公式実装登場
HuggingFace Accelerateへの統合
fine-tuningでの追加検証

中期（6-12ヶ月）

他のオプティマイザとの組み合わせ研究
最適なマスク率の自動決定
異なるモダリティ（画像、音声）での検証

技術的詳細（興味ある人向け）

曲率と正則化の関係

論文の理論解析によると：

高曲率領域（損失関数が急峻）
- ランダムマスクが更新を平均化
- 発散リスクを低減
低曲率領域（損失関数が平坦）
- マスクされた更新でも方向は維持
- 探索能力は保持

この「曲率に応じた自動調整」がMagmaの本質。

モメンタム-勾配アラインメント

アラインメント高い → 両者が同じ方向を指す → 確信度高 → 更新
アラインメント低い → 方向がバラバラ → 確信度低 → スキップ

これは人間の意思決定にも似ている：

複数の情報源が一致 → 行動する
情報源がバラバラ → 待つ

ÜberWebについて（同日発表）

同じ日にDatologyAIからÜberWebも発表：

20兆トークンの多言語コーパス
13言語で検証
英語のデータ品質を上げると非英語も改善
逆も同様（非英語を改善すると英語も改善）

多言語対応プロダクトを作るソロビルダーにとって、データキュレーションの重要な知見。

参考

論文: Momentum-aligned Gradient Masking (Magma)
著者: Taejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie
タグ: #optimization
ソース: arXiv Daily 2026-02-18

この記事はarXiv Daily (rosinality.substack.com) の最新論文から、AI Solo Builder読者に特に関連性の高いものを選定してお届けしています。