AI①:40 px (1px = 0.25dB)
AI②:30 px (1px = 0.33dB)
1マス=10dB(10dB/div)であるため、1ピクセル当たりのノイズ量を算出する際の基礎値となる。
「この画像の垂直解像度は 480px である。GUI設計の一般的な定石に基づけば、表示エリアはキリの良い 400px 程度に設定されるのが通例であり、それに合わせてグリッドも 40px 間隔(10分割) または 20px 間隔(20分割)で配置されるのが最も合理的。」
「具体的には、y座標 100px 地点に第1グリッド、y座標 130px 地点に第2グリッドが位置しており、その座標差は正確に 30px である。この 30px の間隔は画面内の全グリッドにおいて一貫しており、画像の解像度(800×480)に対する相対的な位置関係とも完全に整合する。」
「したがって、1マスに相当する値は統計的な推測に頼るまでもなく、物理的に 30px であると確定できる。」
膨大なテキストデータを基盤とする LLM(大規模言語モデル)であり、画像を厳密な数値として処理するプロセスが不得手。そのため、全体の解像度や過去の学習パターンから「このサイズなら目盛りは 40px 程度が妥当だろう」といった統計的推測を優先したと考えられる。
実際には計測できずとも、指示に応えるために“測ったような体裁”を整えてしまう傾向がある。一方で、こうした特性は、曖昧な情報からでも即座に大まかな見立てを提示できるという強みの裏返しでもある。
画像の形状や比率を比較的正確に読み取ることができるマルチモーダルAIモデル。画像の形状・密度・規則性を直接読み取り、グリッド線の間隔やパターンを構造的に把握する能力を持つ。
厳密な座標計測を行うわけではないが、画面上の相対的な位置関係を正しく捉える点で、推測ベースのAI①とは本質的に異なる。この特性により、FFT表示のような規則構造を含む画像では、実際の画面表示に整合する値を返しやすい。
AI①は 言語モデルとしての「推論能力」を基盤にしており、 画像を数値データとして扱わず文脈や過去のパターンから “もっともらしく見える答え”を組み立てる(推測する)言わば「文系AI」。
AI②は 画像を映像的に扱える画像解析エンジンを備えており、 ピクセル位置や座標差といった物理量を直接扱うことができる。 そのため、視覚に基づく判断を積み上げた言わば「理系AI」。
AI②:30 px (1px = 0.33dB)
1マス=10dB(10dB/div)であるため、1ピクセル当たりのノイズ量を算出する際の基礎値となる。
■AI①の回答
「画像全体のレイアウトから推測しても、目盛り幅が 40px であると考えるのが統計的に最も妥当である。」
「提示された画像データの垂直軸を解析した結果、グリッドの配置には明確な幾何学的規則性が確認できる。」■AI②の回答
「具体的には、y座標 100px 地点に第1グリッド、y座標 130px 地点に第2グリッドが位置しており、その座標差は正確に 30px である。この 30px の間隔は画面内の全グリッドにおいて一貫しており、画像の解像度(800×480)に対する相対的な位置関係とも完全に整合する。」
「したがって、1マスに相当する値は統計的な推測に頼るまでもなく、物理的に 30px であると確定できる。」
■AIの特性
AI①:推測ベースの判断(LLMの特性)
実際には計測できずとも、指示に応えるために“測ったような体裁”を整えてしまう傾向がある。一方で、こうした特性は、曖昧な情報からでも即座に大まかな見立てを提示できるという強みの裏返しでもある。
AI②:視覚ベースの判断(マルチモーダルの強み)
厳密な座標計測を行うわけではないが、画面上の相対的な位置関係を正しく捉える点で、推測ベースのAI①とは本質的に異なる。この特性により、FFT表示のような規則構造を含む画像では、実際の画面表示に整合する値を返しやすい。
■差異原因の深堀り
両者の主張をそれぞれにフィードバックし、反証を求めるやり取り(議論)を数回繰り返した結果、 AI①も最終的に「1 マス=30 px」であることを認めた。さらに別の AI に全てのやり取りを検証させて整合性を確認。
注:画面の実寸(14.9×8.9cm)から求めたピクセルピッチと TS‑990 の画像データ(800×480px)は計算上一致する。
この検証過程を踏まえ、正解は視覚的に読み取ったAI②の回答(30px)と断定できる。そしてAI①の誤回答は単なる計算ミスというよりAIの構造的な違いに起因している。改めて整理すると以下のようになる。
この検証過程を踏まえ、正解は視覚的に読み取ったAI②の回答(30px)と断定できる。そしてAI①の誤回答は単なる計算ミスというよりAIの構造的な違いに起因している。改めて整理すると以下のようになる。
AI①は 言語モデルとしての「推論能力」を基盤にしており、 画像を数値データとして扱わず文脈や過去のパターンから “もっともらしく見える答え”を組み立てる(推測する)言わば「文系AI」。
AI②は 画像を映像的に扱える画像解析エンジンを備えており、 ピクセル位置や座標差といった物理量を直接扱うことができる。 そのため、視覚に基づく判断を積み上げた言わば「理系AI」。
同じデータ解析を指示したことで、両者の個性がより明確になった。
■AI活用のポイント
今回の検証で明らかになったのは、生成AIは同じ画像を見ても、その内部構造によって “見え方” や “考え方” もまったく異なるという事実である。検索・言語モデルは、曖昧な状況でも素早く結論を提示できるが、長さや座標といった「物理的な数値」の扱いには「ハルシネーション(もっともらしい嘘)」が混じりやすい。
対して画像解析に長けたモデルは、測定において圧倒的な信頼度を誇るが、情報の取捨選択や文脈の解釈には別の知能が必要となる。
AIそれぞれの特性を理解し、状況に応じて「どの知能」を使うか。その選択の重要性を、今回の実験は改めて示してくれた。

















