AI DeepLearning

画像AIを身につけよう① 構造編

titlearchi

AIは難しい!?以外に簡単!?

AIは難しそう。。。

そんなことはありません!

AIの考え方を身につけるだけでも

十分に役に立ちます。

まずAIの構造から見ていきましょう

スポンサーリンク

画像のデータ

画像AIの構造の前に、先に画像がどんなデータになっているか知っておきましょう

画像は四角(画素)の集合体

画像は、下記のように、小さい四角(画素)がいくつも縦、横に並んだものを、写真として人が見ています。

スマフォのカメラで1,200万画素となっているのは、小さい四角が1,200万ありますよということです。

1,200万もあるので、下記のように荒い写真ではなく、鮮明に見えます。

画素にはR(赤)G(緑)B(青)がある

1画素、1画素にはさらに、R(赤)G(緑)B(青)のデータを持っています。

それぞれが、0 〜 255の数字を持っていて、それぞれを足し合わせて色々な色が表現されています。

下記の柚子の画像は、青色が少ないので、青のデータだけを見ると0付近が多くなっています。

RGBそれぞれ、白黒の画像になっているのは、白=0〜黒=255のデータで表示しているためです。

画像AIは立方体で考える

ここまでで、画像は、

  •  幅×高さ×RGB(3ch)のデータ数
  •  0 〜 255の数字を持っている

ことがわかります。

画像AIでは、これを下記のように立方体としてデータを扱っていきます。

四角の箱が30 × 30 × 3=2700つ立方体で積まれていて、その箱1つ1つに0 〜 255の数字が入っているイメージです。

画像AIの構造

さて、画像が立方体で表現されることがわかりました。

次に、画像AIがこの立方体をどのように処理して、写真に何が写っているか、判別(分類)できるのか見ていきます。

基本構造(例)

画像データは立方体で表現され、画像AIは下記のように

  立方体>立方体>立方体>立方体>平面>平面(分類したい数)

と形を変えていき、最終的に分類したい数の平面にします。

*この図は1つの例で、世の中には色々な構造があります。

「柚子」「みかん」「オレンジ」と分類する画像AIを考えると、平面の3つの箱になるように最終的に変形します。そして、それぞれの箱が0 or 1の値を持ち、柚子の箱が「1」になっていれば、AIが柚子と分類したということになります。

その他構造

先ほどの構造は、一枚の画像に何が写っているか、分類するAIの構造です。

その他にも、世の中には色々な構造のAIがあります。

実際に使われているままの構造ではないですが、2つ例に出します。

私は使ったことはないですが、ノイズ除去とかで使われるオートエンコーダのAI構造

また、画像のここに人、車があると教えてくれる、位置検出のAI構造

色々な企業、大学などが、この構造を考えてくれています。

最後に

AI構造がわかったところで、

なんで立方体の形を平面に変えると、分類できるのか??

という疑問が出ると思います。

AIのアルゴリズムは、最終的な平面の形にする過程で、何回も掛け算、足し算が行われます。

AIはどう掛け算、足し算すれば、分類できるのか自動で学習することができます。

どのように、掛け算、足し算しているのかは、次回説明していきます。

-AI, DeepLearning
-, , , ,

© 2020 ひつじ工房 Powered by AFFINGER5