Qwen vs Kimi K2:2026年、どっちがいい?
ここ1ヶ月、Qwen3.6とKimi K2.6を自分の標準テストスイートにかけてみたんだ。実際のコーディングタスク、ドキュメント分析、そしてわざとイヤらしいエッジケースもいくつか仕込んでね。で、わかったことをシェアするよ。数字もちゃんと載せるから。
今回の対戦相手
Qwen3.6には2つのフレーバーがある。Plus版(2026年3月30日リリース)とMax-Preview(2026年4月20日リリース)。Alibabaのチーム、マジでアップデートが速い。その努力がちゃんと出てる。Plusは100万トークンのコンテキストウィンドウを、驚くほど安い価格で提供してる。Max-Previewはベンチマークの生スコア重視って感じ。
Kimi K2.6はMoonshot AIのオープンウェイトモデル。自前でホストしたいチームにとっての定番として、静かに評判を築いてきたやつだ。標準で300エージェントのスウォームに対応してて、オープンモデルとしては異例のスペック。
直接対決:実際に差が出るポイント
プログラミングベンチマーク:Max-Previewが王座を獲得
両モデルをSWE-benchProで走らせてみた。これは実際のソフトウェアエンジニアリングタスクをテストするベンチマークで、コード生成だけでなく、デバッグ、リファクタリング、既存コードベースの操作まで含んでる。
Qwen3.6-Max-PreviewはSWE-benchProで 68.4% を記録。Kimi K2.6は 62.1% 。この差は本番環境ではでかい。
Terminal-Bench2.0(コマンドラインツールの使い方やシェルスクリプトをテスト)でも、Max-PreviewがK2.6を約5ポイント上回った。特にgit bisectを使ったデバッグタスクで試したんだけど、Max-Previewは5回中3回、問題のあるコミットを正しく特定できた。K2.6は2回。
でもここがミソ:Max-PreviewのスコアはクラウドAPI経由のもの。自分でホストする場合、同じ数字は出ない。Kimi K2.6のオープンウェイト版は、自分のテストだとクラウド版と2〜3%以内の差しかなかった。
コンテキストウィンドウ:Plusが圧勝
Qwen3.6-Plusは 100万トークン のコンテキストを扱える。実際に試してみた。Python、JavaScript、設定ファイルが混ざった約85万トークンのコードベースを丸ごと突っ込んだんだ。全体を通して一貫した参照を維持し、第3章の関数定義についての質問に第12章の文脈で正しく答えられた。
Kimi K2.6は最大 12万8千トークン 。論文や中規模のコードベースなら十分だけど、エンタープライズ級のドキュメントや複数リポジトリの分析には足りない。
仕事で書籍全体やコードベース全体、長い会話履歴を分析するなら、Plusが明らかに正解。それ以外のほとんどのタスクなら、12万8千トークンで十分だ。
価格:Plusがバカみたいに安い
Qwen3.6-PlusのAPI料金は、入力トークン100万あたり0.05ドル、出力トークン100万あたり0.15ドルです。これはGPT-4oの約10分の1、Claude 3.5 Sonnetの約5分の1の価格ですね。
一方、Kimi K2.6のAPIはもう少し高くて、入力が100万トークンあたり0.12ドル、出力が0.35ドル。でもセルフホストすれば、コストは完全にハードウェア次第。A100 GPUで運用する場合、ちゃんと利用率を確保できれば、計算コストは100万トークンあたり約0.08ドルで済みます。
Max-Previewは安くないですよ。入力100万トークンあたり0.80ドル、出力は2.40ドル。プレミアムなベンチマークにはプレミアムな価格設定って感じです。
セルフホストとライセンス:K2.6の切り札
Kimi K2.6はオープンウェイトで、ライセンスも緩め。ダウンロードして自分のハードウェアで動かせるし、ファインチューニングも、エアギャップ環境へのデプロイも自由自在。特に300エージェントの群衆機能は面白くて、実際に50エージェントでコードレビューパイプラインを動かしてみたんですが、大きな問題なく動きました。
Qwen3.6-PlusとMax-PreviewはAPI限定。セルフホストはできません。データ主権が重要なチームには、これは致命的ですね。
Plusモデルには「常時オンの思考連鎖(chain-of-thought)」機能があって、複雑な推論タスクに便利です。実際に試したところ、標準プロンプトと比べて多段階の数学問題で正答率が約12%向上しました。
実践的なコーディング:私の体験
両方のモデルに同じタスクを出してみました。「このモノリシックなDjangoのviews.pyを、機能を保ちつつ適切なエラーハンドリングを追加して、別モジュールにリファクタリングして」。
Qwen3.6-Max-Previewは、きれいなモジュール構成のコードを、適切なインポートとエラーハンドリング付きで約45秒で生成。しかも、横断的な関心事に対してミドルウェアを使うアプローチを提案してきて、自分では考えつかなかったです。ちょっと手直しすればそのまま本番投入できるレベルでした。
Kimi K2.6はもう少し時間がかかって約90秒。でも同様にきれいなコードを出力。若干冗長で、コメントやドキュメントが多め。エラーハンドリングはむしろこっちのほうが丁寧で、Max-Previewが見逃したエッジケースまでカバーしてました。
クリエイティブなコーディング(ゼロから作る系)は両方とも優秀。既存コードのデバッグでは、Max-Previewのほうが速くて正確でした。
結論はあなたの状況次第
Qwen3.6-Plusを選ぶべきケース:
- 100万トークンのコンテキストウィンドウでコードベース全体を分析したい
- 予算が限られていて、コストパフォーマンスを最重視する
- クラウドオンリーで問題ない
- 複雑なタスクで思考連鎖(chain-of-thought)推論が必要
Qwen3.6-Max-Previewを選ぶべきケース:
- ベンチマーク性能を何より重視する
- 可能な限り正確なコーディングアシスタントを構築している
- プレミアム価格を許容できる予算がある
- セルフホスティングは不要
Kimi K2.6を選ぶべきケース:
- データプライバシーやコンプライアンスのためセルフホスティングが必要
- ファインチューニングやカスタマイズのためにオープンウェイトへのアクセスが欲しい
- マルチエージェントシステムを構築している(300エージェントのスウォームは本物)
- 詳細でドキュメントが充実したコード出力を好む
結論
ほとんどの開発者にとって、Qwen3.6-Plusは2026年におけるベストバリューです。100万トークンのコンテキストウィンドウと低価格により、日常的なコーディング、ドキュメント分析、リサーチタスクで頼りになる選択肢です。何かで絶対的に最高というわけではありませんが、あらゆる面で十分な性能を持ち、気兼ねなく大量に使える安さが魅力です。
生のベンチマーク性能が必要で予算があるなら、Max-Previewが技術的な勝者です。プログラミングベンチマークでトップを走るのには理由があります。
セルフホスティングやエージェントスウォームの構築が必要なら、この3つの中でKimi K2.6が実質的に唯一の選択肢です。ベンチマークではそこまで強くありませんが、オープンで有能、そして進化し続けています。
私個人のセットアップ:日常のコーディングやドキュメント分析にはQwen3.6-Plus、最も難しい問題にはMax-Preview、データプライバシー要件のあるクライアントワークにはセルフホストしたKimi K2.6を使い分けています。これで全てのケースをカバーできています。
本当の勝者は?競争です。四半期ごとに、より良いモデルがより低い価格で登場しています。