
検閲の壁を壊すのは誰か?AIの「拒否率」ランキングが示す自由とリスクの境界線
3行要約 主要AIモデルの「検閲(拒否率)」を測定した最新ランキングにより、モデル間の思想的差異が数値化された。 ChatGPTやClaudeなどの大手は依然としてガードレールが強固だが、Llama 3派生モデルやGrokが「自由度」で圧倒している。 「安全性」という名のアライメントが、実用性や表現の自由を阻害する「アライメント税」となっている現状が浮き彫りになった。 何が発表されたのか 今回注目を集めているのは、主要な大規模言語モデル(LLM)がユーザーのプロンプトに対してどの程度「回答を拒否するか」を測定したベンチマーク結果だ。一般的に「検閲」と呼ばれるこの挙動は、開発元が施したRLHF(人間からのフィードバックによる強化学習)やシステムプロンプトによる制約に起因する。 ...








