AI generated thumbnail

DeepSeek Thinking-with-Visual-Primitives 使い方:視覚的思考でVLMの精度を極限まで高める実装ガイド

所要時間: 約45分 | 難易度: ★★★★☆ この記事で作るもの DeepSeekが発表した最新フレームワーク「Thinking-with-Visual-Primitives(TwVP)」を使い、画像内の物体位置を正確に把握し、その配置関係から複雑な推論を行うPythonスクリプトを作成します。 一般的なVLM(Vision-Language Model)が苦手とする「正確な座標特定」と「空間認識」を、モデルに「視覚的な下書き(Primitive)」を書かせることで解決する手法を実装します。 この記事を読み終える頃には、単なる画像説明ではなく、ミリ単位の空間把握が必要な業務(検品、棚卸、図面解析など)に応用可能なコードが手元に残ります。 ...

2026年5月1日 · 8 分 · 3618 文字 · Negi AI Lab