AI 機械音検査: なぜ LLM も事前学習モデルも工場現場では破綻するのか
公開日: 2026年4月20日執筆者: QAAD Engineering
ワイヤレス充電器の動作音検査(コイルこすれ、シャフト接触、スクラッチ)を題材に、大型 AI モデルも音響事前学習モデルも機能しない理由と、QAAD がゼロから専用 CNN を構築する意味を解説します。
家電工場では、カメラや AOI では捉えられない一群の不良があります。それは製品が動作中にのみ現れる機械音響的異常です。ワイヤレス充電器であれば、高周波振動時に生じる コイル移動音、シャフトのこすれ音、スクラッチ音などです。熟練工の耳なら聞き分けられますが、1 時間 1000 台・8 時間連続となれば人手の精度は急降下します。
「小さいが重要」な音
- 非常に短い — 通常 20–200 ms、コイルのハム音に埋もれています。
- 高周波 — 識別に効くエネルギーは 3–10 kHz 帯に集中。音声の 80–300 Hz とは別世界です。
- 低振幅 — ノイズフロアからの差は 3–8 dB のみ。線形しきい値では取り逃がします。
LLM や大型 AI モデルは解けない
- LLM(GPT、Gemini、Claude): 生音声信号をそもそも扱いません。「マルチモーダルオーディオ」版も音声/発話内容向けで、微小な機械特徴は対象外。
- レイテンシ: クラウド往復は秒単位。ラインは 100 ms 以下で不良品を排出する必要があります。
- 推論コスト: 1 日数百万回 × クラウド API は現実的ではありません。
- 安定性: ネット切断で産ライン停止は許容不可。
音響 pretrain モデルも破綻する
「Whisper・Wav2Vec2・AST・YAMNet・PANNs・CLAP のような音響事前学習モデルを fine-tune すればよい?」 — 実際に試しましたが、答えは NO です。
- Whisper / Wav2Vec2 は音声学習で、フォルマント/音素に特化した特徴抽出器 — 機械ノイズとは無関係。
- YAMNet / PANNs / AST は AudioSet(犬・車・音楽・人声など環境音)で学習。「5 kHz コイルこすれ」に近いクラスは存在しません。転移学習するとゼロからの学習より悪化します。
- CLAP は音声とテキストをマッチングしますが、お客様の現場の不良を表す語彙が存在しません。
- ドメインギャップが大きすぎる: サンプリングレート、SNR、窓長、支配エネルギー帯 — すべて異なります。1000 件の NG サンプルでは 1 億パラメータの特徴空間を動かせません。
結論: 特定の工場音響課題において、pretrained は出発点ではなく袋小路です。
QAAD のアプローチ: スクラッチで作る専用 CNN
- 現場でのデータ収集: 測定用マイクを正しいピックアップ位置に設置し、48 kHz サンプリング。不良種別ごとにラベル付け:
coil_rub、shaft_contact、scratch、solder_crack、… - 特徴量: STFT → メル 128 バンド × 96 フレーム、1 秒窓。
- アーキテクチャ: Conv2D + BN + ReLU × 5 ブロック、Squeeze-and-Excitation チャネルアテンション、GAP + FC 256。合計 ~32 万パラメータ — Raspberry Pi 4 や Intel N100 で直接動作。
- 学習: SpecAugment + MixUp、NG:OK ≈ 1:50 のため focal loss を採用。
- デプロイ: ONNX → エッジ推論、レイテンシ < 50 ms。
実績
- 実顧客テストセット: F1 = 0.983、false-negative < 0.4%。
- エッジ CPU 平均レイテンシ: 38 ms。
- モデルサイズ: 1.3 MB — 完全オフライン動作、クラウド非依存。
- 説明可能性: スペクトログラムヒートマップ + クラス活性化で、現場オペレータがなぜ弾かれたかを即理解。
QAAD の使命
Quality Assurance · Active Development — 最大のモデルを追いかけるのではなく、お客様の具体的な課題に最適な解を作る。
LLM 全盛のこの時代にあっても、ドメイン知識 × 小さく専門化されたモデルこそが工場に入る唯一の道だと我々は信じています。「些細に見えて誰も解けない問題」があれば、ぜひ QAAD ベトナムにお声がけください。まさに我々が解きたい問題です。
