ノイズを定量化する際の基準となるパラメーターであったため、 その差異がどこから生じたのかを整理しておく。
■差異発生箇所
TS-990のメインディスプレイ(FFT表示/7インチ/800×480)のグリッド縦1マスあたりのピクセル数AI①:40 px (1px = 0.25dB)
AI②:30 px (1px = 0.33dB)
1マス=10dB(10dB/div)であるため、1ピクセル当たりのノイズ量を算出する際の基礎値となる。
■AI①の回答
「画像全体のレイアウトから推測しても、目盛り幅が 40px であると考えるのが統計的に最も妥当である。」
「提示された画像データの垂直軸をピクセル単位で解析した結果、グリッドの配置には明確な幾何学的規則性が確認できる。」■AI②の回答
「具体的には、y座標 100px 地点に第1グリッド、y座標 130px 地点に第2グリッドが位置しており、その座標差は正確に 30px である。この 30px の間隔は画面内の全グリッドにおいて一貫しており、画像の解像度(800×480)に対する相対的な位置関係とも完全に整合する。」
「したがって、1マスに相当する値は統計的な推測に頼るまでもなく、物理的に 30px であると確定できる。」
■AIの特性
AI①:推測ベースの判断(LLMの特性)
実際には計測できずとも、指示に応えるために“測ったような体裁”を整えてしまう傾向がある。一方で、こうした特性は、曖昧な情報からでも即座に大まかな見立てを提示できるという強みの裏返しでもある。
AI②:実測ベースの判断(マルチモーダルの強み)
画像を「座標を持つ数値データ」として認識できるマルチモーダルAIモデル。グリッド線の位置をピクセル単位で正確に捉え、その距離(座標差)から 10dB に相当する値を物理的に算出する。
つまり、過去のパターンから“推測”する AI①に対し、AI②は目の前の情報を直接読み取る“実測”ベースの判断が可能となる。
■差異原因の深堀り
両者の主張をそれぞれにフィードバックし、反証を求めるやり取り(議論)を数回繰り返した結果、 AI①も最終的に「1 マス=30 px」であることを認めた。さらに別の AI に全てのやり取りを検証させて整合性を確認。
注:画面の実寸(14.9×8.9cm)から求めたピクセルピッチと TS‑990 の画像データ(800×480px)は計算上一致する。
この検証過程を踏まえ、正解は実測に基づくAI②の回答(30px)と断定できる。そしてAI①の誤回答は単なる計算ミスというよりAIの構造的な違いに起因している。改めて整理すると以下のようになる。
この検証過程を踏まえ、正解は実測に基づくAI②の回答(30px)と断定できる。そしてAI①の誤回答は単なる計算ミスというよりAIの構造的な違いに起因している。改めて整理すると以下のようになる。
AI①は 言語モデルとしての「推論能力」を基盤にしており、 画像を数値データとして扱わず文脈や過去のパターンから “もっともらしく見える答え”を組み立てる(推測する)言わば「文系AI」。
AI②は 画像を数値的に扱える画像解析エンジンを備えており、 ピクセル位置や座標差といった物理量を直接扱うことができる。 そのため、実測に基づく判断を積み上げた言わば「理系AI」。
同じデータ解析を指示したことで、両者の個性がより明確になった。
■AI活用のポイント
今回の検証で明らかになったのは、 AIは同じ画像を見ても、その内部構造によって “見え方” や “考え方” もまったく異なるという事実である。検索・言語モデルは、曖昧な状況でも素早く結論を提示できるが、長さや座標といった「物理的な数値」の扱いには「ハルシネーション(もっともらしい嘘)」が混じりやすい。
対して画像解析に長けたモデルは、測定において圧倒的な信頼度を誇るが、情報の取捨選択や文脈の解釈には別の知能が必要となる。
AIそれぞれの特性を理解し、状況に応じて「どの知能」を使うか。その選択の重要性を、今回の実験は改めて示してくれた。