2017年、Googleが発表した「Transformer」論文はAIの能力革命を引き起こした。ChatGPTの「GPT」はGenerative Pre-trained Transformer——つまりTransformerを土台にした技術だ。あれから約9年、再びGoogleが放った一手が業界を揺さぶっている。今度は能力ではなく、コストの革命だ。
AIの「作業机」が狭すぎる
大規模言語モデル(LLM)が文章を読むとき、処理の途中経過を一時的に保存する「作業机」が必要になる。これが「KVキャッシュ」だ。問題は、文章が長くなるほど机の上が資料で埋め尽くされ、収拾がつかなくなることにある。AmazonのAIリサーチャーDarshan Fofadiya氏によれば、Llama 70Bモデルを100万トークンのコンテキスト幅で動作させた場合、この「作業机」だけで約328GBものVRAMを占有する。作業机を広げるにはサーバーのメモリを増設するしかなく、それがそのままAI推論コストの上昇につながってきた。
「分厚いメモ帳」を薄くする技術
TurboQuantは作業机に置くメモの「書き方」を根本から変える技術だ。従来のメモは数値を正確に記録しようとするあまり1件あたり16ビットを消費していたが、TurboQuantは2段階の工夫でこれを3〜4ビットまで圧縮する。
【ステップ1】メモをそろえ直す(PolarQuant) 作業机のメモは数値の大きさがバラバラで、そのまま圧縮すると重要な情報がつぶれてしまう。そこでまず数値を「回転」させ、均一な大きさに揃え直す。均一になれば、少ないビット数でも正確に表現できる。
【ステップ2】ズレを1ビットで補正する(QJL) 回転させると微妙なズレが生じる。そのズレだけを、わずか1ビットの追加情報で修正する。これにより精度をほぼ損なわずに、元の16ビットのメモを3〜4ビットまで圧縮できる。
Google Researchの研究者Amir Zandieh氏とVahab Mirrokni氏が開発し、ICLR 2026に採択されたこのアルゴリズムは、情報理論上の圧縮限界からわずか2.7倍以内という理論的保証を持つ。LongBenchなど標準的なベンチマークでは、3.5ビットまで圧縮してもフルサイズ(16ビット)と同等のスコアを維持した。
再び論文を公開したGoogle
2017年のTransformer論文以降、Googleは重要な研究の公開に慎重になっていたとされる。自ら公開した技術をOpenAIに活用され、急成長を許した苦い経験があるためだ。それだけに、今回TurboQuantをオープンな形で発表したことはAI業界に驚きをもって受け止められた。なぜ今回公開に踏み切ったのか、Googleは明らかにしていない。
コミュニティの反応は速かった。Googleが公式の実装ツールを公開する前に、世界中の開発者が独自に動く版を作り上げ、ネット上に無償公開した。驚かれているのはその効果だ。これまでクラウド上の大型サーバーでしか動かなかった高性能AIが、一般的なゲーミングPCのスペックで動くようになった事例が相次いで報告されている。「自分のパソコンでここまで賢いAIが動くとは」という驚きの声がSNSに広がっている。
「能力革命」から「コスト革命」へ
Transformerがあらゆる人にAIを「使えるもの」にしたとすれば、TurboQuantはAIを「どこでも使えるもの」にする技術だ。高価なクラウドサーバーに頼らなくても高性能なAIが動く世界が、現実味を帯びてきた。
むろん慎重な見方もある。TurboQuantが効果を発揮するのはAIが答えを出す「推論」の場面に限られ、AIを賢くする「学習」の段階には対応していない。また開発者コミュニティからは、理論通りの性能が出ないケースもあるという報告も上がっており、企業が本番環境に導入するにはもう少し時間がかかりそうだ。
それでもGoogleは、2017年にAIの能力を飛躍させた同じ研究所から、今度はそのコストを根本から下げる技術を世に放った。「Transformer級かもしれない」という声がコミュニティに広がるのも、あながち誇張ではない。
主なソース ・arXiv論文 2504.19874:https://arxiv.org/abs/2504.19874
・Google Research ブログ:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
・VentureBeat:https://venturebeat.com/infrastructure/googles-new-turboquant-algorithm-speeds-up-ai-memory-8x-cutting-costs-by-50
・InfoQ:https://www.infoq.com/news/2026/04/turboquant-compression-kv-cache/
・TradingKey:https://www.tradingkey.com/analysis/stocks/us-stocks/261728257-what-is-google-turboquant-compression-algorithm-how-impact-ai-memory-chip-industry-tradingkey

湯川鶴章
AI新聞編集長
AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。