
Llama 3やGPT-4oを「10分の1」のサイズに圧縮しても精度を維持できる技術が、ついにAPIとして一般開放されました。
3行要約 Multiverse ComputingがOpenAIやMetaなどの主要モデルを圧縮して提供する「CompactifAI」のAPIとデモアプリを公開。 量子計算から着想を得た「テンソルネットワーク」技術により、従来の量子化(Quantization)を超える圧縮率と精度維持を両立。 巨大なVRAMを積んだサーバーだけでなく、エッジデバイスや安価なCPUインスタンスでの大規模言語モデル(LLM)運用が現実的になる。 📦 この記事に関連する商品 ...