なぜ、鵜木教授はディープフェイクの判別に映像ではなく音声を使用するのでしょうか。
鵜木教授「目は焦点が合っているところや変化には敏感だがそうじゃないところはボケて見えているのでそういうところに(偽情報が)入っているのは全然気づかない。だけど音は我々が視野で見えているところじゃない背後から来ている音に関してはすごく敏感。だから背後で音が鳴ったらはっと気づくようにとても敏感なそんな耳の能力を持っている我々を騙すっていうのはかなり難しい。」
今回、鵜木教授の検証システムにSNS上で拡散されていたディープフェイクとみられる3本の動画とAttaの中継映像を入力してみました。
鵜木教授「今回のデータについて分析した結果、秋田のクマ、七尾のクマ、ドラレコで撮られたクマ、この左3つがフェイク。残りの3つは本物の音声で一つ目がアナウンサーの声、リポーターの声の2区間、それぞれ分析している。」
声帯の振動の大きさが時間の経過とともにどのように変化するか見てみるとディープフェイク音声には急激な変動が不自然に見られます。
鵜木教授「3番目(ドラレコで撮影したクマ)は突出している、これは明らかに機械でつくった変な声だからこうなる。1番目と2番目は比較的よくできた音だと思う。」
「このラインで上が本物、下が偽物というのが分かるようにこういう手がかりを今回提案している機械では判別する材料になっている、アナウンサーの声、リポーターの声は本物、クマはフェイクと答えが出た。」













