Commentary
DeepSeekの衝撃(続)
「開放性」は「地政学」に勝つ

DeepSeekはなぜ優れているのか?
では、DeepSeekは、OpenAIなどに比べて性能が劣るICしか入手できない状況のなかで、いかにしてそれらより効率的に生成AIを作ることができたのだろうか。OpenAI側はDeepSeekのモデルはOpenAIのモデルを不正に「蒸留」して作成したものだと非難している(『Gigazine』、2025年1月30日)。
「蒸留」とは、AIが世の中のいろいろなデータを学習する際に、まず大きなモデルに学ばせておいて、そのエッセンスを小さなモデルに詰め込むことを指す。DeepSeek自身も、その推論モデルDeepSeek-R1をより小さくした蒸留版を公開している。
ただ、もともと生成AIの訓練にはインターネット上にある膨大な情報を集めて学習するので、DeepSeekの訓練過程で学習するなかにはOpenAIのGPTなど他社の生成AIが推論して出力した結果も含まれる。生成AI同士がそうやって互いに参照し合うのはこの業界の常識だと指摘されており(劉・屈、2025)、それを指して不正な「蒸留」だというのであれば、およそ大規模言語モデルはどれも不正をやっていることになってしまう。
「蒸留」にはもう一つ狭い意味があり、それはある動物の画像を見てそれが犬である確率は60%、猫である確率は40%という確率分布を大きなモデルによって計算し、その確率分布を小さなモデルに学ばせることによって学習効率を上げることを指す(斎藤、2025)。OpenAIはそうした確率分布を社外には公開していないので、もしDeepSeekがそれを取得したとしたらそれは不正ということになる。
しかし、試験で隣の学生の答案をのぞきこんでカンニングすることを想定すれば分かるように、カンニングによって隣の学生よりもすばやく答案を書けるかもしれないが、カンニングだけでは隣の学生より良い成績を取ることはできないだろう。DeepSeek-V3が多くの側面でGPT-4oよりも好成績を挙げていることは、「蒸留」だけでは説明できない。
結局のところ、DeepSeekのモデルがより優れていたからこそ、低コストでChatGPTなどを上回る成績を上げることができたのではないだろうか。モデルの概要についてはDeepSeekのウェブサイトに掲載されているテクニカルレポート(DeepSeek-AI, 2025)に書かれている。その内容を理解して紹介する能力は残念ながら私にはないが、Multi-head latent attention とDeepSeekMoEの二つが重要な技術らしい。
Multi-head attentionとは、入力されてくる文章や画像を分析してその注目点を計算する効率的な方法として2017年にグーグルが開発し、それ以降生成AIでは広く使われている。DeepSeekのMulti-head latent attentionとは、注目点を計算するための鍵(key)と値(value)を圧縮して共通化することによって計算作業をさらに効率化する方法なのだという。
また、MoE(Mixture-of-experts 複数の専門家)とは、AIがいろいろな文章を学習していくにあたって、頭脳のなかに化学の専門家、文学の専門家、といったように多数の「専門家」を用意し、入力されてくる文章に応じてそれに適した専門家たちを動員して学習していくという仕組みで、これもOpenAIなど他社も採用している。DeepSeekMoEは専門家をより細分化することと、常に動員する共通の専門家を用意して共通性の高い知識を学習させることに特徴がある。以上二つとも生成AIの世界ではかなり広く使われている計算方法であり、DeepSeekが行ったことはそれらを部分的に改良することであったが、それでも格段に高い効率を実現した。