2026年4月25日土曜日

324. AI解析の差異について

フェライトコアのノイズ抑制効果をAI を使って検証した際、 AI によって分析結果が異なる事象が発生した。

ノイズを定量化する際の基準となるパラメーターであったため、 その差異がどこから生じたのかを整理しておく。

■差異発生箇所

TS-990のメインディスプレイ(FFT表示/7インチ/800×480)のグリッド縦1マスあたりのピクセル数


AI①:40 px (1px = 0.25dB)
AI②:30 px (1px = 0.33dB)


1マス=10dB(10dB/div)であるため、1ピクセル当たりのノイズ量を算出する際の基礎値となる。

■AI①の回答

「この画像の垂直解像度は 480px である。GUI設計の一般的な定石に基づけば、表示エリアはキリの良い 400px 程度に設定されるのが通例であり、それに合わせてグリッドも 40px 間隔(10分割) または 20px 間隔(20分割)で配置されるのが最も合理的。」

「画像全体のレイアウトから推測しても、目盛り幅が 40px であると考えるのが統計的に最も妥当である。」

■AI②の回答

「提示された画像データの垂直軸をピクセル単位で解析した結果、グリッドの配置には明確な幾何学的規則性が確認できる。」

「具体的には、y座標 100px 地点に第1グリッド、y座標 130px 地点に第2グリッドが位置しており、その座標差は正確に 30px である。この 30px の間隔は画面内の全グリッドにおいて一貫しており、画像の解像度(800×480)に対する相対的な位置関係とも完全に整合する。」

「したがって、1マスに相当する値は統計的な推測に頼るまでもなく、物理的に 30px であると確定できる。」

■AIの特性

AI①:推測ベースの判断(LLMの特性)


膨大なテキストデータを基盤とする LLM(大規模言語モデル)であり、画像を厳密な数値として処理するプロセスが不得手。そのため、全体の解像度や過去の学習パターンから「このサイズなら目盛りは 40px 程度が妥当だろう」といった統計的推測を優先したと考えられる。

実際には計測できずとも、指示に応えるために“測ったような体裁”を整えてしまう傾向がある。一方で、こうした特性は、曖昧な情報からでも即座に大まかな見立てを提示できるという強みの裏返しでもある。

AI②:実測ベースの判断(マルチモーダルの強み)

画像を「座標を持つ数値データ」として認識できるマルチモーダルAIモデル。グリッド線の位置をピクセル単位で正確に捉え、その距離(座標差)から 10dB に相当する値を物理的に算出する。 つまり、過去のパターンから“推測”する AI①に対し、AI②は目の前の情報を直接読み取る“実測”ベースの判断が可能となる。

■差異原因の深堀り

両者の主張をそれぞれにフィードバックし、反証を求めるやり取り(議論)を数回繰り返した結果、 AI①も最終的に「1 マス=30 px」であることを認めた。さらに別の AI に全てのやり取りを検証させて整合性を確認。
注:画面の実寸(14.9×8.9cm)から求めたピクセルピッチと TS‑990 の画像データ(800×480px)は計算上一致する。

この検証過程を踏まえ、正解は実測に基づくAI②の回答(30px)と断定できる。そしてAI①の誤回答は単なる計算ミスというよりAIの構造的な違いに起因している。改めて
整理すると以下のようになる。

AI①は 言語モデルとしての「推論能力」を基盤にしており、 画像を数値データとして扱わず文脈や過去のパターンから “もっともらしく見える答え”を組み立てる(推測する)言わば
「文系AI」

AI②は 画像を数値的に扱える画像解析エンジンを備えており、 ピクセル位置や座標差といった物理量を直接扱うことができる。 そのため、実測に基づく判断を積み上げた言わば「理系AI」
 同じデータ解析を指示したことで、両者の個性がより明確になった。

■AI活用のポイント

今回の検証で明らかになったのは、 AIは同じ画像を見ても、その内部構造によって “見え方” や “考え方” もまったく異なるという事実である。

検索・言語モデルは、曖昧な状況でも素早く結論を提示できるが、長さや座標といった「物理的な数値」の扱いには「ハルシネーション(もっともらしい嘘)」が混じりやすい。

対して画像解析に長けたモデルは、測定において圧倒的な信頼度を誇るが、情報の取捨選択や文脈の解釈には別の知能が必要となる。

AIそれぞれの特性を理解し、状況に応じて「どの知能」を使うか。その選択の重要性を、今回の実験は改めて示してくれた。