深層学習　後編 - Githubissues

深層学習 day3
深層学習day3-1

［訂正］動画中02:09:38時点、資料に誤りがありますので訂正いたします。【誤】 functions.d_sigmoid(u[:,t+1])　→　【正】 functions.d_sigmoid(u[:,t])　※最後のuの添え字はu[:,t]が正しい［訂正］動画中04:30:00時点、資料に誤りがありますので訂正いたします。【誤】リセットゲートの式r(t)のバイアスはbh(t)　→　【正】br(t) 【誤】活性化関数h(t)の式はf(Wrx(t) + Ur(r(t)h(t-1))bh(t))　→　【正】f(Whx(t) + Uhr(t)h(t-1)+bh(t)) RNNについて学習していく畳み込み層を通っていくうちに画像（入力）の特徴を捉える畳み込み演算では2次元の情報を変換し、全結合層で1次元に変換している CNNの特徴・・・畳み込み演算によって2次元の情報を保持することができる確認テストサイズ55の画像を33のフィルタで畳み込んだ時の出力画像のサイズを求める。ただし、ストライドは2、パディングは1とする解答：縦横ともに公式を用いて、O(出力の高さ・幅) =( 画像の高さ・幅 + 2 パディングの高さ・幅 - フィルタの高さ・幅) / ストライド +1　より、 Output = (5 + 2 1 - 3) / 2 + 1 = 3　よって、出力画像のサイズは3 3 図に描いて考えるとわかりやすい。最初にパディングで入力画像を広げることに注意する RNN・・・時間的順序を追って一定間隔ごとに観察され、しかも相互に統計的依存関係が認められるようなデータの系列時系列データ・・・音声データ、株価のデータ、テキストデータ(自然言語)など音声が時間的つながりがない場合ノイズに聞こえるテキストデータは単語一つ一つに時間的つながりがあると考える時系列データ具体例・・・日付と入館者の数 → 8、9月ぐらいが入館者が多い RNNも普通のニューラルネットワークと基本的な構造は同様である（入力層 → 中間層 → 出力層 → 誤差関数） RNNの図左側のループがある図と右側の図は意味としては一緒でどちらもRNNを模式化したものである普通のニューラルネットワーク・・・入力から出力への一方通行 RNN・・・入力から出力に加えて出力を入力のように中間層へ戻す処理を入れている時間的につながっていることを示しているのがz0~z4が含まれている右側の図添え字の数字は時間を示している(観測間隔) z0は初期化されている中間層 z1は普通のニューラルネットワークと同じ処理 z2以降は前の中間層の出力と入力データをもとに出力する(z2であればx2とz1) z4はz1～z3までの情報が含まれている RNNの重み RNNは一つの処理で三か所の重みが存在する（中間層ｚは複雑な処理が含まれているが、1つの処理として考えている）・W(in)・・・入力層から中間層への重み・W(out)・・・中間層から出力層への重み・W・・・前の中間層からの情報量を調整する重み RNNの数学的記述 f()、g()・・・活性化関数 xから活性化関数に入るまでがu、uを活性化関数に通すとz zから活性化関数に入るまでがv、vを活性化関数に通すとy コードの中でvは明示的に定義されておらず、yのコードの中に含まれている z^t-1は前の時間の中間層の出力 入力には入力用の重み、前の中間層にはそれ用の重み、出力には出力用の重みを掛ける確認テスト RNNの3つの重みについて説明する・入力から現在の中間層を定義する際にかけられる重み(W(in)) 解答：・現在の中間層を定義する際、足し合わせる前の中間層にかけられる重み(W) ・中間層から出力を定義する際にかけられる重み(W(out)) RNNの特徴・・・初期の状態と過去の時間t-1の状態を保持し、底から次の時間でのtを再帰的に求める再帰構造（数珠つながりの状態）を持つことによって時系列モデルを扱えるようになっている中間層から中間層の影響を与えることでt-1の状態をtの時点の状態に学習させる RNN・・・Recurrent Neural Network（再帰的ニューラルネットワーク）の略コードでの確認 3_1_simple_RNN.ipynb https://github.com/mizukihiraishi/Study-AI/blob/f62dd629532c140f4a4d23c24203182bcb9a562e/3_1_simple_RNN_after.ipynb バイナリ加算をRNNで学習するバイナリ加算・・・2進数で表記されている数字同士の加算を行う → 繰り上がりがある状態を下の桁から上の桁に時間的つながりがある状態と捉える 2進数は1の次は繰り上がる 8桁の2進数 → 0か1が8個並んだ状態 → 8連続の時間とする a、bが加算する対象の数字 8単位時間進むことを1万回学習する順伝播の際も逆伝播の際も8単位時間のfor文を回す必要がある演習チャレンジ構文木・・・文章があった際、隣同士の単語の組み合わせで一つの特徴量を得る、を特徴量を一つの特徴量になるまで繰り返して、単語同士の関係を木構造で表現したもの単語同士の特徴量の集まりの枝一つは数字の集まりだが、前の状態を保った状態にすることを考える木のleftとrightの特徴量をそのまま足したり掛けたりした場合別の特徴になる、maxをとった場合は片方しか保持されない concatenateの場合、leftとrightを横方向に結合して一つのものとする重みを掛けることによって結合した特徴量のサイズを調整するよって答えは(2）W.dot(np.concatenate([left, right])) 逆伝播 BPTT・・・Backpropagation Through Timeの略、RNNにおける逆伝播の手法確認テスト連鎖律の原理を用いてdz/dxを求める、ただしz = t^2、t = x + y 解答：dz/dt = 2t、dt/dx = 1より、dz/dx = dz/dt dt/dz = 2t 1 t = x + yより、dz/dx = 2(x + y) コードでの逆伝播の確認 3_1_simple_RNN.ipynb 94～102行目 8単位時間分逆伝播をする deltaに逆伝播が代入される BPTTの数学的記述 RNNは重みが3つあるので、3つ更新式が必要となる(3つの重みそれぞれに対しての微分を計算する) u^t = W(in) x^t + W x^t-1 + b z^t = f(W(in) x^t + W z^t-1 + b) v^t = W(out) z^t + c y^t = g(W(out) z^t + c) Eをuで微分した部分をδ^tで表す Tの添え字は時間的にさかのぼることを表す Eをvで微分した部分をδ^(out,t)で表す du^t/dW(in) = x^t dv^t/dW(out) = z^t du^t/dW = z^t-1 W(in)、Wに対するバイアスはまとめてbと表している du^t/db = 1 dv^t/dc = 1 プログラムではバイアスbは省略されている確認テスト y1をx、z0、z1、w(in)、w、w(out)を用いて表すバイアスは任意の文字、中間層の出力にシグモイド関数g(x)を作用させる y1 = g(Wout s1 + c) s1 = Win x1 + W s0 + b BPTTのδ部分の計算式 zはf(u)と書くことができる δ^t-1の計算 δ^t-1 = ∂E / ∂u^(t-1) = ∂E / ∂u^t ∂u^t / ∂u^(t-1) z^(t-1)の微分はf'(u^(t-1)) δ^(t-z-1)のzは前の数式と関係なく、z回ぶん戻ったことを表す δ^(t-z-1)の微分は、δ^(t-z)が含まれている（時間的繋がりがある） BPTTのパラメータ更新式 εは学習率を表す最新の中間層zは前までのzの情報をすべて引き継いでいるため、Σが含まれる yは前のzは関係ない（中間層までのプロセスで前までの時間の情報は処理済みのため） W(in)、W、bは前までの時間の情報を引き継ぐため、Σが含まれる（前までの時間の情報を足し合わせる） BPTTの全体像誤差関数はlossと表されている(任意の誤差関数) loss(y, d)の中でyを展開している z^(t-1)はf(u^(t-1))に置き換えている最終的にfの中にz^(t-2)が含まれている → zを展開していくと過去のzを数珠つなぎに引き継いでいるコードでの確認 3_1_simple_RNN_after.ipynb 時系列ループのなかに時間的繋がりが記述されている プログラムではt+1が現在の時間、tがひとつ前の時間を表している（数式のtに1足されている） W_grad、W_in_gradで過去の時間との繋がりを含んだ計算をしているコード演習問題(BPTTの数学的記述2行目) delta_t は中間層から中間層の出力の部分解答：delta_t = deltat.dot(U) dh{t}/dh_{t-1} = U LSTM RNNの課題・・・時系列を遡れば遡るほど勾配が消失していく → 長い時系列の学習が困難ネットワークの構造を変えて勾配消失問題を解決したものがLSTM 確認テストシグモイド関数の最大値は0.5で、シグモイド関数の微分は(1 - sigmoid(x))sigmoid(x)なので最大値が0.25である勾配爆発勾配が層を逆伝播するごとに指数関数的に大きくなっていく勾配爆発問題が起きやすい場合：活性化関数が恒等関数のとき、学習率が推奨値より大きい場合勾配爆発を防ぐ手法・・・勾配のクリッピング勾配クリッピング・・・勾配のノルムが閾値を超えたら勾配のノルムを閾値に正規化する演習チャレンジクリッピングした勾配は勾配(閾値 / 勾配のノルム) rate = threshold(閾値) / norm(勾配のノルム)のため、(1) gradient rateとなる。 E資格の問題ではノーヒントでプログラム問題が出てくるため、関数は関数名から機能を察する(よく利用されるnumpyの機能は覚えておく) norm・・・gradの大きさ LSTMの全体図青い点線が過去の時間の経路、黒い点線が中間層 CEC(Constant Error Carrousel) CECはこれまでの入力値や中間層の出力値の情報を記憶させる機能のみを持つ LSTMは学習と記憶機能を分離させている通常のRNNは中間層に学習機能と記憶機能が全て備わっているため、過去に遡れば遡るほど学習ができなくなる δ^(t-z-1) = 1（勾配）となれば勾配消失・勾配爆発が起こらないと考える CECが学習機能がないため、CECの周りに学習機能を配置しCECに何を学習させるか（入力ゲート）・CECの記憶をどのように使うか（出力ゲート）を学習し制御する入力ゲートの情報と入力値を活性化関数に通したものを内積してCECに入力する入力ゲートはCECにどれだけ情報を覚えさせるか学習する出力ゲートの情報とCECの出力を活性化関数に通したものを内積して出力値とする出力ゲートはCECの情報をどのように利用するか学習する重み：W・・・今回の入力値をどのぐらい判断材料として用いるか、U・・・前回の出力値をどのぐらい判断材料として用いるか V・・・どれぐらい覚えさせるか学習機能を各種ゲート、記憶機能をCECに分離する忘却ゲート CECは過去の情報を全て保管する課題：過去の記憶が必要ない場合にCECから情報を削除しなければならない忘却ゲート・・・過去の情報が必要ない場合にそのタイミングで情報をCECから忘却させる機能 c(t) = i(t)・a(t) + f(t)・c(t - 1) f(t)・・・過去の情報をどれだけ忘却させるかを決める関数 c(t)・・・今回CECが覚えている情報(CECの出力) i(t)・・・入力ゲートからの情報 a(t)・・・入力値を活性化関数に通したもの確認テスト LSTMに文章に入力し、単語を予測する。予測において必要とならない単語がある場合、どのゲートが作用するか解答：忘却ゲート演習チャレンジ cはCECに覚えさせる情報を示している解答：(3) input_gate a + forget_gate c 図の数式とプログラムを見比べる CECに保存されている情報を任意のタイミングで他のノードに伝播させたり、任意のタイミングで忘却させたい覗き穴結合・・・CEC自身の値に重み行列を介して伝播可能にした構造、現在のCECの情報を各ゲートに学習させる GRU GRU・・・LSTMの改良版、計算負荷が低い、隠れ層に計算状態を保存している LSTMの課題・・・パラメータが非常に多く、学習負荷が高くなった GRUはLSTMのパラメータを大幅に削減し、精度を同等またはそれ以上が望める構造 CEC、ゲートを削除し、リセットゲート・更新ゲートを配置したリセットゲート・・・隠れ層の状態をどのように保持するかを制御している h(t-1)・・・前回の状態の記憶 r(t)・・・リセットゲートの出力更新ゲート・・・今回の入力と前回の出力を用いて今回の出力を制御している z(t)・・・更新ゲートの出力確認テスト LSTMとCECが抱える課題について述べる LSTM・・・入力ゲート、忘却ゲート、出力ゲート、CECの4つの構造を持つためパラメータが膨大になり計算負荷が高い CEC・・・勾配が1になるように設計されているため、学習能力がないコードで確認 predict_word.ipynb プログラムの1行目に以下の分を足す %tensorflow_version 1.x 前回まではnumpyで記述されているが、今回はtensorflowを用いて記述されている BasicRNNCell・・・基本的なRNNのセル演習チャレンジ GRUの順伝播を行うプログラム GRUの図と見比べてh(t)のプログラムを考える解答：(4) (1 - z) h + z h_bar zは更新ゲート確認テスト LSTMとGRUの違いを述べる解答：LSTM、3つのゲートとCECが存在する、GRUは2つのゲートだけ存在する、そのためLSTMよりGRUの方がパラメータが少なく、計算負荷が低い双方向RNN 過去の情報だけでなく、未来の情報を加味することで精度を向上させるモデル実用例：機械翻訳、文章の推敲（長い文章が入ってくるため、過去の情報だけでなく未来の情報も用いることができる）演習チャレンジ順方向・・・Wf、Uf、前の中間層からの情報をUfとする逆方向・・・Wb、Ub 出力層への重み・・・V 四則演算を行うと情報が変化してしまうので不適。 concatenateのaxis = 0、axis = 1の違い（[+,+,+]、[,,]を結合するときの動き） axis = 0の場合は横方向に結合する（[+, +, +, , , ]） axis = 1の場合は縦方向に結合して一つの行列にする（[[+, ], [+, ], [+, ]]）同じ列を一つの配列に入れる解答：(4) np.concatenate([h_f, h_b[::-1]], axis=1) 同じ時間の順方向と逆方向は同じ配列に入れ込むと考える RNNの応用例 seq2seq (sequence to sequence) sequenceは単語の並び 2つのニューラルネットワークから構成されている入力側のニューラルネットワークは入力データを隠れ層に蓄積されているニューラルネットワークに記憶がだんだん貯まっていく隠れ層には文の意味がベクトル表現で保持されている出力側では入力側で抽出された文の意味を別の分に変換する入力側をエンコーダ、出力側をデコーダと呼ぶ（Encoder-Decoderモデルの一種）時系列のデータを入力して時系列のデータを出力する機械対話や機械翻訳に利用されている Encoder RNN・・・文の意味を集約するRNN 入力された文章の単語を順々に入力するすべての単語を入力すると文章の意味がひとつのベクトル表現として隠れ層に保存される自然言語のベクトル化単語一つ一つに番号を振っていく番号を振るとone-hotベクトルとして表現が可能になる単語 → ID → one-hot → embedding表現 embedding表現に変換すると万単位から数百単位に変換できる単語の意味が似ているものはembedding表現が似通るように学習していく embedding表現・・・単語の意味を抽出したもの最後のベクトルを入れた時の隠れ層をfinal stateとする。final stateは文章全ての意味がひとつのベクトルとなっている同じような入力が同じようなベクトルを出力するように学習することを特徴量抽出と呼ぶ BERT(Google社が開発した自然言語のモデル)・・・MLM(Masked Langage Model)が用いられている MLM 単語を全てベクトル表現に変換したのち、ある単語を見えない状態にする見えない部分を前後の文脈から予測することをモデルで学習させる単語ごとの意味ベクトルが同じような単語は同じようなベクトルに自然に獲得することができる情報が与えられると教師なし学習で学習ができる（人間がラベルを振る必要がない） Decoder RNN Encoder RNNのfinal stateからアウトプットを単語ごとに生成するRNN embedding表現 → one-hot → ID → 単語へEncoderとは逆方向に変換する確認テスト seq2seqの説明を選ぶ解答：(2) RNNをもちいたEncoder-Decoderモデルの一種であり、機械翻訳などのモデルに使われる。 (1)・・・双方向RNN (3)・・・構文木 (4)・・・LSTM 演習チャレンジ文の意味を表すベクトルを生成する部分単語埋め込み・・・embedding word embedding matrix（E）・・・単語に対するembedding表現の対応表解答：(1) E.dot(x) 単語に対してEのdot積をとると単語に対するembedding表現を取り出せる seq2seqの課題・・・一問一答しかできない HREDは単語に加えて文脈自体も扱う Seq2Seq + Context RNN Encoder、Decoderに加えて文脈ベクトルを生成し、文脈ベクトルを次の中間層に引き継ぐ HREDは過去の発話の履歴を加味した（文脈を意識した）返答ができる HREDの課題・・・短いよくある答えを選ぶ傾向になる VHRED・・・HREDの課題をVAEの潜在変数の概念を追加することで解決した構造オートエンコーダ・・・教師なし学習の一つ、入力から出力データを復元する、Encoder-Decoderで構成される数字の画像を入力して数字の画像を出力する潜在変数z・・・入力や戻す出力に対して非常に小さいデータ Encoder・・・入力から潜在変数を生成する Decoder・・・潜在変数から出力を生成する Encoderの入力とDecoderの出力が同じになるように、オートエンコーダは学習する EncoderはDecoderでもとに戻しやすいような潜在変数zを生成する処理学ぶ Decoderは潜在変数zから元に戻す処理を学ぶ VAE・・・Variational Autoencoder、潜在変数を生成する際に正則化を行う（平均が0で分散が1の確率分布に従うように） VAEは何のデータを入力しても同じような平均分散の潜在変数zを出力するオートエンコーダであるただ数字を復元できれば良いオートエンコーダではone-hotベクトルで分類するだけの学習をしてしまうかも（数字同士の形の近さ(元のデータがどれだけ似通っているか)は学習しない）元のデータが近ければ同じような潜在変数ｚを学習してほしい（元のデータの類似度と潜在変数zの類似度が同じような値になる）実際のVAEの学習・・・Encoderの出力にノイズを加えて、ノイズが加えられた潜在変数zから元のデータを復元するように学習する → 同じ入力でもノイズによって変化を持たせられる → より汎用的な出力になる確認テスト解答：VAEの特徴は、自己符号化器の潜在変数に確率分布を導入したもの
深層学習day3-2

word2vec・・・単語のような文字列をベクトル表現に変換する手法文章から単語をリストアップし、番号順にone-hotベクトルに変換し、行列に変換する変換する際の変換表を機械学習で学習する自然言語処理ではword2vecで変換したものを入力している Attention Mechanism seq2seqでは長い文章への対応が難しい・・・長い文章でも短い文章でも同じ長さのベクトルで表現するため Attention Mechanism・・・一文の中で特に重要な単語も自力で見つけ出す機構重要な単語を選択的に隠れ層の状態として用いる途中の中間層の情報量が一定でも、重要な情報を用いることができる確認テスト解答：RNNとword2vecの違い・・・RNNは時系列データを処理するのに適したネットワーク、word2vecは単語の分散表現ベクトルを得る手法 seq2seqとAttentionの違い・・・seq2seqは一つの時系列データから別の時系列データを得るネットワーク、Attentionは時系列データの中身の関連性に重みを付与する手法確認テスト解答：seq2seqとHREDの違い・・・seq2seqは一文の一問一答に対して処理ができるある時系列データからある時系列データを生成するネットワーク、HREDはseq2seqの機構にそれまでの文脈の意味ベクトルを解釈に加えられるようにすることで文脈の意味をくみ取った変換（EncodeとDecode）をできるようにした手法 HREDとVHREDの違い・・・HREDは文脈に対して当たり障りのない回答しか生成できなくなったことに対して、VHREDはVAEの考え方を取り入れることによって短い当たり障りのない単語以上の出力を生成できるように改良を施したモデル

文章を入力したときに次に来る単語を予測するコード https://github.com/mizukihiraishi/Study-AI/blob/5e36f2c9c991e040bce3ca2ae2ee4aa0d0677d7c/3_2_predict_word.ipynb

sin波を予測するコード https://github.com/mizukihiraishi/Study-AI/blob/cce954780510d3ce8b06df8bacbbadc2d43c1ea8/3_3_predict_sin.ipynb

深層学習day3 補助資料
data-augumentation(TensorFlow2)

data_augmentation_with_tf.ipynb https://github.com/mizukihiraishi/Study-AI/blob/e11d7f5a4fb04a736643dd067d8e032feb9a56d5/data_augmentation_with_tf_shusei1031.ipynb データの水増し画像の水増しであれば反転、回転等を用いて画像を増やす TensorFlow/Kerasのライブラリを用いる Hue・・・色相をランダムに調整する、範囲は引数max_deltaで指定する
activate_functions(TensorFlow2)

activation_function.ipynb https://github.com/mizukihiraishi/Study-AI/blob/e11d7f5a4fb04a736643dd067d8e032feb9a56d5/activation_functions.ipynb 関数は一言でいうと変換器データフロー図（データフローダイヤグラム） Keras 活性化関数はActivationで記述されているステップ関数・・・閾値は0、ぴったり0のときは微分不可能だが、実装の際はぴったり0の時は無視する（別微分）、誤差逆伝播法では用いられない（微分が0になるため）シグモイド関数、tanh関数は勾配消失が発生しやすい ReLUの課題・・・導関数の入力値が負の値の時、学習が進まない出力層の活性化関数 2値分類の出力サイズは2ではなく1であることに留意する回帰問題は基本的に入力値を変換しない

深層学習day4

Tensorflowでの実装 https://github.com/mizukihiraishi/Study-AI/blob/111e15cd1d2d46d530cd4991228268a93687b6b6/4_1_tensorflow_codes_after.ipynb 4_1の線形回帰をもとにパラメータのセーブとロードを行う https://github.com/mizukihiraishi/Study-AI/blob/e11d7f5a4fb04a736643dd067d8e032feb9a56d5/4_2_load.py https://github.com/mizukihiraishi/Study-AI/blob/e11d7f5a4fb04a736643dd067d8e032feb9a56d5/4_2_save.py Kerasでの実装 https://github.com/mizukihiraishi/Study-AI/blob/3dedf814b68881805baee6bf1613984868dc84b9/4_3_keras_codes_after.ipynb

本編
01_強化学習1

アプリなどの実装では軽量化・高速化の技術が重要となる強化学習とは教師あり学習・教師なし学習・強化学習と分類される中の一つ強化学習の目標は目的を準備して、目的をうまく達成するように機械学習で学習する仕事をしているときに自力で仕事を解決し、やり方を改善していくような感じ強化学習のイメージ環境：職場、エージェント：労働者、エージェントの方策：仕事のやり方、報酬：ボーナス、状態：流行りや季節などエージェントは方策に基づいて何かしら行動をすると環境から報酬を得られるエージェントの行動によって環境の状態が変化することがある報酬をたくさんもらえるようにエージェントの方策を学習する
02_強化学習2

講義テキストP7のイメージコストという負の報酬を小さくしつつ、売り上げという正の報酬を最大化するピンポイントの顧客に抱き合わせ商品のキャンペーンメールを送る最初は無秩序にメールを送って、徐々に顧客の傾向がわかるのでキャンペーンメールを送る相手を選ぶ強化学習は不完全な知識をもとに行動しながら、データを収集して最適な行動を見つけていく（事前知識の少ない状態）探索と利用のトレードオフ(講義資料P9を参照)
03_強化学習3

強化学習は方策と価値を学習する価値・・・エージェントが心地いいと感じる価値（一時的に売り上げが上がっても後々コストがかかるならよくない方策である、など）価値：実際は行動価値関数と状態価値関数があるが使われるのは行動価値関数がほとんど強化学習と教師あり・教師なし学習との違い・・・目標が違う教師あり・なし学習ではデータに含まれるパターンをどうにか見つけ出し、特徴量からモデルの学習では使わなかった未知のデータを予測する強化学習は特徴量を知りたいのではなく、よりよく動く優れた方策（行動指針）を探し出すことが目標従来は強化学習で解決しようとしている問題はホワイトカラー労働者がやっていたこと（知識・経験が必要）で、人間が考えられるパターンでしかできない強化学習が進めば、人間よりも効率的なパターンを自力で探し出すことができるため注目されている最近の強化学習は深層学習と組み合わせるため、非常に大きな計算量となる場合がある 関数近似法とQ学習を組み合わせる手法の登場により最近強化学習の注目が集まっている Q学習・・・行動価値関数を行動するごとに更新することにより学習を進める手法関数近似法・・・入力に対して出力を返す関数を用いて学習する → 関数を用いれるということはニューラルネットワークで近似できる昔の強化学習は大きなリスト（何が入力されたら何を出力するか）を用いて学習を行っていた
04_強化学習4

価値関数強化学習では価値関数、方策関数が重要価値関数は2種類あり、状態価値関数と行動価値関数 Q学習では行動価値関数を用いる状態価値関数、行動価値関数の違い・・・価値を決めるとき、何がエージェントにとって良いのか（エージェントの目標設定）状態価値関数・・・環境の状態のみが価値を決める対象（エージェントの行動、方策は関係ない）、囲碁であれば盤面しか見ていない行動価値関数・・・状態とエージェントがとった行動の2つによって価値が決まる、囲碁であれば盤面に対してどこに碁を打つかを見ている方策関数・・・エージェントがどのような行動をするのか決める関数、価値関数が出した価値を最大化するような方策をエージェントに取らせる価値関数：状態関数V(s)・・・価値を決めるときに使う値は状態sのみ、行動価値関数Q(s, a)・・・状態s＋エージェントがとる行動aを基に価値を決める囲碁であれば一手をどこに打つかを決めるのが方策関数、最終的に勝てそうかどうかを考えるのが価値関数
05_強化学習5

状態関数が最終的に方策関数のやり方を最後まで続けたら勝てるのか・良い結果となるのかを計算するのに対して方策関数は状態関数が一番理想的な状態（スコアが高くなるように、報酬が大きくなるように）今どうしようか決める方策関数を学習させる方法価値関数は将来にわたる目標を考えるイメージ、方策関数は目標設定に基づいて今どうするかを考えるイメージ方策勾配法・・・方策関数をニューラルネットワークにして学習する Θ^(t+1) = Θ^t + ε∇J(Θ)・・・tは時間、εは学習率、Θは重みWと同様のイメージ、Jは誤差関数と同様のイメージ Θ^tはt時刻の重みニューラルネットワークの重みの更新式場合は更新量がマイナスになっているが方策勾配法はプラスになっている方策関数はπで表す πは重みをΘでとるニューラルネットワークである NNは教師データとニューラルネットワークの出力が一緒になるように学習するため、誤差関数を最小化するように学習する（更新式をマイナスする）強化学習ではなるべく報酬をたくさん得られる方向に学習するため、期待収益を最大化するようにがうしゅうする（更新式をプラスする） J・・・期待される報酬（期待収益）の関数 ∇J(Θ)の計算もとの式：Σの中身をΘで微分している πΘ・・・方策関数（エージェントがとる行動を示す） Qπ(s,a)・・・ある状態の時なにかしらの行動をとった時の環境から得られる報酬エージェントが環境の中でとる行動は選択肢が複数あり、それぞれの選択肢に対して価値が決まっているすべての行動パターンに対して得られる価値を足しているのがΣとなっている参考：https://qiita.com/fridericusgauss/items/aa5215c29646963bda29#%E6%96%B9%E7%AD%96%E5%8B%BE%E9%85%8D%E6%B3%95
06_AlphaGo1

囲碁の強化学習 2種類のAlphaGoがある・・・AlphaGo Lee、AlphaGo Zero AlphaGo Lee・・・二つのニューラルネットワークが出てくる：PolicyNet（方策関数）、ValueNet（価値関数）、畳み込みニューラルネットワークで構成されている PolicyNet 入力：19×19（碁盤の盤面）の48チャンネル（48チャンネルの詳細はテキストP20の表）着手履歴・・・1チャンネルは1つのみ1が立っている 2次元のデータには畳み込むのが基本 19×19の中でどこに打つのがベストかの予測確率を出力する（2次元） ValueNet 入力：19×19（碁盤の盤面）の49チャンネル（49チャンネルの詳細はテキストP20の表）、PolicyNetのチャンネルに手番のチャンネルを加えたもの出力：現在の勝率を-1～1で表現したもの（一つの数字、1次元）出力が1次元のため、Flatten・全結合の処理をしなければならない 2次元で特徴量を計算して、それに基づいて勝つか負けるかを判定する
07_AlphaGo2

AlphaGoの強化学習のステップ教師あり学習によるRollOutPolicyとPolicyNetの学習 → 強化学習によるPolicyNetの学習 → 強化学習によるValueNetの学習 PolicyPool・・・PolicyNetをたくさん保存したもの強化学習のみを行うとうまくいかない（工夫が必要） RollOutPolicy・・・高速に学習するための工夫（PolicyNetより1000倍速い）、現在の盤面の状態からどこに石を置けばいいか出力する(入力と出力はPolicyNetと同じ)、NNではなく線形の方策関数 NNで畳み込み演算が含まれている場合、計算量が多くなる
08_AlphaGo3

最初にRollOutPolicyとPolicyNetに教師あり学習を行い、方策の学習をする教師あり学習では過去の人間対人間の対局を入力するモンテカルロ木探索強化学習の学習方法価値関数を学習させるときに用いる手法 RollOutPolicyを用いてモンテカルロ木探索を行う
09_AlphaGo4

AlphaGo Zero 教師あり学習を一切行わずに強化学習のみで作成 Leeの場合は取れる石の数など人間が役に立つと思う入力を決めて入力データで決めている Zeroは石の配置のみを入力としている PolicyNetとValueNetを1つのネットワークに結合している Residual Netを導入したネットワークは一つ（PolicyValueNet）になったが、Policyの出力（方策関数）とValueの出力（価値関数）は2つ必要となるため、途中で二股にネットワークを分ける
10_AlphaGo5

Residual Block ネットワークにショートカットを入れることによってネットワークの深さを抑えるルートが追加されるため、非常に深いネットワークでも勾配の爆発、消失を防ぐことができるショートカットするルートとショートカットせずにネットワークを通るルートの2つができるため、何層も繋げるといろいろなネットワークを通った出力が表現できる（アンサンブル効果） AlphaGo ZeroのResidual BlockはResidual Block基本形（テキストP32）を１ブロックとして39個結合している Residual Blockの工夫・・・Bottleneck、PreActivation（AlphaGo Zeroの論文で取り上げられている←E資格にはこういう問題が出てくる）テキストP33 Network構造の工夫・・・WideResNet、PyramidNet 基本的なニューラルネットワークの知識と基本的なものを組み合わせたものに名前がついているものを切り分ける 畳み込み、プーリング、RNN、Attention → 活性化関数の流れが基本
11_AlphaGo6

ResidualNetworkの性能（テキストP34論文の切り抜き）・・・ImageNetの画像分類に対しててきようしたときの性能が示されている AlphaGo Zeroのモンテカルロ木探索（テキストP35,36）
12_データ並列化

軽量化・高速化技術モデル並列・データ並列・GPU・・・モデルを高速に学習させる技術量子化・蒸留・プルーニング・・・モデルの軽量化 分散深層学習 毎年十倍のペースでデータの量やモデルの複雑さが増えている対策・・・コンピュータの数を増やす、並列・分散でモデルを学習させるデータ並列化モデルをワーカーのコンピュータそれぞれにコピーし、データを分割して各ワーカーに計算させるワーカー一つ一つが一つのコンピュータのイメージワーカーを増やしてネットワークでつないで同時並行に学習させる演算器・・・CPU、GPU、TPU、量子コンピュータコンピュータは1台で、演算器を増やす手法もあるワーカーがバラバラなので、どのようにモデルに反映させるか・・・同期型、非同期型同期型の学習の流れ各ワーカーを同時に子モデルの誤差（勾配）を算出させる　→　勾配をすべて集めて平均を求め親モデルに学習させる　→　パラメータ更新後の親モデルを子モデルに反映させる非同期型の学習の流れ各ワーカーバラバラに子モデルを学習させる　→　学習が終わった子モデルをパラメータサーバに格納する(Push)　→　新しく子モデル学習する際にはパラメータサーバの一番上にある（最後の格納されたモデル）モデルを使って学習する(Pop) 非同期型は処理が速いが、ベストの最新のモデルで子モデルが学習できないので学習が不安定になりやすいスマートフォンなど、いつ電源が切れるかわからないようなもので学習するときは非同期型がよく用いられる
13_モデル並列化1

モデルを分割してそれぞれのワーカーに分割されたモデルを学習させる親モデル・・・一連のモデル、子モデル・・・分岐しているものやブロックのつながっている部分で分割されたモデル枝分かれしたモデルの枝分かれ部分を別の計算器に学習させることが現在はよく用いられているデータ並列化は違うコンピュータを用いていることが多いモデル並列化は一台のコンピュータに何台かGPUを接続して使われることが多いモデルを分割した際、出力層の結果をもとに誤差関数を計算しなければならないので、モデルを集めなければならないため、たいていの場合一台のコンピュータでモデル並列化は利用される
14_モデル並列化2

モデル並列化の効果大きなモデル(パラメータが多い)ほどモデル並列化した際の速度向上の効率がよくなる通信速度との兼ね合いでモデル並列化を利用するか考える大きなモデルで分割がうまくいく場合に利用する参考論文：Large Scale Distributed Deep Networks Tennsorflowでは並列処理が部分的にサポートされている GPU（高速な機械）による高速化 CPU・・・複雑な演算、処理が得意（いろいろな種類の演算ができる）、高性能のコアが少数で構成されている（少数精鋭）、CPUの高性能化は18～24ヶ月で2倍（遅い） GPU・・・簡単な並列処理が得意、低性能なコアが多数ニューラルネットワークは足し算掛け算の単純な行列演算が主なため、GPUで非常に高速化する GPGPUを用いる際の開発環境 CUDA・・・NVIDIA社が開発しているGPUのみで使用可能 Tensorflow、Pytorchを使えばGPUでのディープラーニングは実装できる
15_量子化1

量子化・・・軽量化の手法、パラメータの浮動小数点数の精度を下げるネットワークが大きくなるとパラメータが大量になり、学習や推論に多くのメモリと演算処理が必要 VERT・・・0.3～0.6GB程度メモリを使う、数十億個重みがあるメモリを消費する原因・・・重みの情報（レイヤー数が多いため）を一つ一つ記憶しなければならないため重み・・・浮動小数点数で表されている
16_量子化2

64bit → 8byte、32bit → 4byte、16bit → 2byte 64bitから32bitで重みを表現できるようになると消費メモリが半減する 64bitで量子化する、32bitで量子化するというような言い方をする 1bitは2進数（1か0）浮動小数点のコンピュータにおける表現前半のexponentで桁数の表現、後半のfractionで小数を表現する 0.24683(fraction) × 10^8(exponent) 16→64bitの浮動小数点になることで特に小数の表現できる桁数が増える（精度の良い表現になる）量子化の精度・・・何bitで表すか
17_量子化3

量子化の利点と欠点利点・・・計算の高速化(計算量が少なくなる)、省メモリ化（メモリの消費が少なくなる）欠点・・・精度の低下 64bit、16bitどちらもすべてのbitについて演算するため、16bitの方が計算コストが低くなる 16bit・・・半精度浮動小数点、32bit・・・単精度浮動小数点、64bit・・・倍精度浮動小数点倍精度の演算は単精度の演算器を2つ用いて演算する GPUの性能(FLOPS：Floationg Operations)・・・単精度は倍精度の丁度2倍深層学習を行う場合は半精度(16bit)で十分計算できる上に、半精度は非常に高速に計算できるため、16bitで演算することが有効となっている重みの値が非常に小さくなる場合には高い精度で小数を表現しなければならない（最低限の精度が必要）
18_量子化4

速度の実験結果 32bitと6bitのモデルの比較テキストP59の表はオブジェクトを見つける作業の速度比較精度の実験結果テキストP60の表は求めるオブジェクトを囲んだ範囲の精度比較参考資料 https://cloud.google.com/tpu/docs/bfloat16 浮動小数点のbitの割り当てを変えて機械学習に適した表現にするやり方もある
19_蒸留

精度の高い（パラメータ数が多く巨大な）ニューラルネットワークはメモリ消費や演算処理が大きくなる蒸留・・・精度の高いモデルの知識を引き継いで軽量なモデルを精度の高いモデルから作る精度の高いモデルはレイヤーが多いレイヤーが多いモデルの精度に近い軽量なモデルを作りたい基本的にデータの複雑さに応じた大きなモデルが必要蒸留の構成・・・教師モデルと生徒モデルから構成される教師モデル・・・大きくて複雑で高精度のモデル生徒モデル・・・教師モデルを基に軽量でそれなりに精度のあるモデル蒸留の流れ ①データの入力を教師モデル(学習済み：重みは固定)と生徒モデル(学習対象)に通す ②教師モデルと生徒モデルそれぞれの誤差を算出する ③教師モデルと生徒モデルの誤差を足し合わせる ④足し合わせた誤差を基に生徒モデルの重みを更新する教師モデルは固定の誤差（学習が完了した状態の誤差）のため、教師モデルの誤差を引き継ぎながらそれに合わせるように生徒モデルを学習することができる蒸留の利点テキストP67図はCifer 10(画像認識のデータセット)に対する学習を行ったグラフで、横軸がレイヤー数、縦軸が精度（エポック数はすべて同じ）赤い三角・・・通常の誤差逆伝搬法でモデルを学習したときの精度青い四角・・・教師と生徒のモデルを使って学習させたときの精度緑色の丸・・・論文で提案されているHint Trainingを用いて学習させたときの精度全て軽量なモデル(レイヤーが5～11層)についての学習精度
20_プルーニング

ネットワークが大きくなるとパラメータが大量となるがすべてのニューロンの計算が精度に寄与しているわけではないそのため、必要なパラメータだけ残して残りを削減する　→　プルーニングピンポイントに使われているニューロンだけを残すニューロン削減の手法重みが閾値より小さい（0に近い）ニューロンを削除する閾値より重みが小さいものを消した結果ニューロンが途中までつながっているが、最後までつながっておらず出力に寄与しないニューロンも全て削除するプルーニングの結果（ニューロン数と精度）テキストP73論文の資料(左表と右表はつながっている) パラメータを約50%減らしても精度は92%程度出ている軽量化の手法量子化・・・重みの精度を下げる蒸留・・・複雑で精度の良い教師モデルから軽量な生徒モデルを学習させるプルーニング・・・必要のないニューロンを削除する
21_応用技術_MobileNet1

有名なネットワークはE資格によく出る参考資料：https://qiita.com/HiromuMasuda0228/items/7dd0b764804d2aa199e4 MobileNet・・・画像認識で軽量化・高精度化したモデル、畳み込み演算を工夫しているテキストP78～ RGBの情報を基に4枚のフィルターで4つの出力をする（1つのフィルターごとに入力のチャンネルすべてまとめて畳み込みしている）計算量はH W C(入力のサイズ) K K（畳み込みカーネルのサイズ） * M（出力チャネル数）一般的な畳み込みレイヤーは計算量が多いため、MobileNetはDepthwise ConvolutionとPointwise Convolutionの組み合わせて計算量を削減
22_応用技術_MobileNet2

Depthwise Convolution カーネルに特徴があるフィルター数は1固定でカーネルのサイズは任意入力の1チャンネルにつき1つのフィルターで畳み込んでいる入力のチャンネル数と出力のチャンネル数は同じ計算量はH W C K K Pointwise Convolution カーネルのサイズを1×1固定でフィルタ数は任意入力のチャンネル数に関わらず任意のチャンネル数で出力できる計算量はH W C * M DepthwiseとPointwiseを組み合わせることで一般の畳み込み演算と同等の計算ができるのではないかという考え方
23_応用技術_MobileNet3

Depthwise Separable・・・DepthwiseとPointwiseに分割するやり方分割することによって計算量を削減できるテキストP86　計算量の問題（い）H W（入力サイズ） C Dk Dk （う）H W C * M
24_応用技術_DecseNet1

DenseNet・・・画像認識のネットワーク、畳み込み演算のネットワークにDense Blockを組み込むという特徴がある Dense Blockはレイヤーを通り抜けるごとにチャンネル数が増えていく Dense Blockの計算入力データに加えて、DenseNetの前のレイヤーで計算した結果を付け加える Dense Blockのレイヤー内の一つの畳み込みでk個フィルターがあるとすると、レイヤーを1つ通過するとk個チャンネルが増える Transition Layer・・・各々のDense Blockの間に挟まれていて、畳み込みとプーリングをすることでチャンネル数をDense Blockに入ってくる前の数に減らすチャンネル数を元に戻すことで次のDense Blockに行く際に同様のDense Blockで演算ができる各ブロック内で特徴マップのサイズは一致する
25_応用技術_DenseNet2

DenseNetとResNetの違いどちらもSkip Connectionが存在する DenseBlockでは前方の各層からの出力を取り込む RessidualBlockでは前の層からの情報しか取り込まない DenseBlockでは成長率(Growth Rate)というハイパーパラメータがある成長率は各ブロックのフィルターのチャンネル数kのこと
26_応用技術_BatchNorm1

Batch Normalization データの分布をミニバッチ単位で平均が0、分散が1となるように正規化 問題点・・・バッチサイズに影響が受けるため、バッチサイズが小さい場合は用いられないミニバッチ・・・ハードウェアによってミニバッチのサイズを変えざるを得ない（CPUは多く、GPUは少なくなる・・・など）ハードウェアによってBatchNormの効果を測りずらくなるバッチサイズが小さい場合はLayer Normalizationなどを使うテキストP99の図は縦が画像１枚の1チャンネル分のデータ、Cがチャンネル、H,W * Cが一つの画像のデータ（畳み込み後でチャンネルが増えている）、N・・・ミニバッチ数（図の場合は6画像分） Batch Normalizationは全ての画像の一つのチャンネルに対して正規化（ミニバッチのサイズに影響される） Layer Normalizationは一つの画像のすべてのチャンネルに対して正規化（一つの画像単位） Instance Normalizationは一つの画像の一つのチャンネルに対して正規化
27_応用技術_BatchNorm2

Batch Normalization RGBの場合は赤で1セット、緑で1セット、青で1セットで正規化を行っている演算器の性能によってシビアにミニバッチ数が決まってしまう(GPUであれば数枚～数十枚) Layer Normalization 一枚ごとの画像でRGBに対して正規化を行っている Batch Normalizationは同じようなデータの集まりで正規化している Layer Normalizationでも有効な効果が出る
28_応用技術_LayerNorm・WaveNet1

Layer Normalizationは入力データに数値を掛けたり、重み行列に対して数値を掛けたりシフトしてずらす操作を行って数値を動かしても出力に影響が出ない（ロバスト） Instance Normalization 各画像の一つのチャンネルに対して正規化、RGBであれば一つの画像の赤、一つの画像の緑、一つの画像の青といった感じ正規化はデータの特徴を同じような数値に揃える、対象を変えてもなぜかうまくいく WaveNet WaveNet・・・音声生成モデル、CNNで構成している音声データは高頻度の振動を記録しているテキストP105の青い点は音声の一つ一つのデータ（1秒間に何万個単位）で非常に短い時間のサンプリング Dilated causal convolution 次元間で繋がりがあるため畳み込みを行える何時刻か前に得られたデータをうまく活用しながら出力を計算できる出力は何時刻かをまとめたものになる WaveNet・・・飛ばし飛ばしで畳み込む、過去のデータを増やしつつも情報量を一定に保つことができる、より時間的に幅広いデータを用いながら一つの出力を得られるネットワークを組める
29_応用技術_WaveNet2

結合確率を効果的に学習できるConvolution型アーキテクチャ・・・Dilated causal convolution Depthwise separable convolution・・・MobileNetで使われる、フィルター数は一つで一つのチャンネルに対して任意のカーネルサイズで畳み込み演算を行う、出力は入力のチャンネル数と同じ Pointwise convolution・・・MobileNetで使われる、カーネルサイズは1×1のフィルターを任意の数ですべてのチャンネルに対して畳み込み演算を行う、出力のチャンネル数はフィルターの数と同じ Deconvolution・・・逆畳み込み　→　普通の畳み込みは小さな特徴量になるが、小さな画像を大きくする（pixel数を増やす）畳み込み演算、画像や動画の解像度を上げるのに用いられる Dilated causal convolutionを使う利点・・・パラメータ数に対する受容野が広い（より長い時間的範囲のデータをうまく使える）

物体検知とセマンティックセグメンテーション（SS）の解説
物体検知とSS解説_1

物体検知とセマンティックセグメンテーションの論文を読むうえで、技術を身に着けていく際の共通で知っておくべき知識について学ぶ導入物体認識とは入力：画像（カラー、モノクロを問わず） Classification：分類・・・画像1枚全体に対しクラスラベルを出力 Object Detection：物体検知・・・バウンディングボックス（どこに物体があるか、どこに何があるか、物体の検出位置） Semantic Segmentation：意味領域分割・・・各ピクセルにクラスラベルを割り当てる（テキストP4、P5の画像であれば青い部分が風船、それ以外は背景） Instance Segmentation：個体領域分割・・・各ピクセルにクラスラベルを割り当て、同じクラスラベルの中でも振り分ける（テキストの図であれば、風船の中でさらに区別する）今までの分類では画像に対して物体が何かを分類していたが、物体認識では画像の中の物体がどこに何が写っているかを出力インスタンス・・・物体個々を区別するかどうかテキストP9・・・バウンディングボックスとクラスラベル、数字は確率代表的データセット物体認識で共通で用いられる代表的なデータセットデータセットで意識すべきこと・・・クラス数、Train＋Val（学習用データと検証用データ）のデータ数、Box/画像（1枚の画像にいくつ物体が写っているかの平均） VOC12・・・日常で代表的な20クラス、VOC:Visual Object Classesの2012年版、コンペティションで用いられたデータセット、470380、Box/画像が少ない ILSVRC17・・・ImageNet(21841クラス、1400万枚以上)のサブセット、コンペティションで用いられたデータセット、ILSVRC(ImageNet Scale Visual Recognition Challenge)、500400、Box/画像が少ない MS COCO18・・・COCO(Common Object in Context)、Microsoft社が作成、640*480、Box/画像が多い OICOD18・・・Open Images V4(6000クラス以上、900万枚以上)のサブセット、OICOD(Open Images Challenge Object Detection)、コンペティションで用いられたデータセット、画像サイズは一様でない、Box/画像が多い Instance Annotation・・・物体個々にラベリングが与えられている、上であればILSVRC17以外 Box/画像が少ない・・・アイコン的な写り（物体が少ない）で日常とはかけ離れている Box/画像が多い・・・部分的な重なりなども見られる、日常生活のコンテキストに近い、物体が小さく映っていることもある 目的に応じたBox/画像の選択・・・複数の物体が写る物体認識なのか、物体が少ないものなのかを判断する クラス数が大きい方がよいかを考える・・・ImageNetでは同じノートパソコンの画像でもLaptopとNotebookに分かれている ImageNetのクラスが適切でない場合があった評価指標通常の分類問題の評価指標 Confusion Matrix（混同行列）数式中の略語 TP・・・True Positive（Positiveと予測して真値がPositiveだった：予測は正解） FP・・・False Positive（Negativeと予測して真値がPositiveだった：予測は不正解） FN・・・Fasle Negative（Positiveと予測して真値がNegativeだった：予測は不正解） TN・・・True Negative（Negativeと予測して真値がNegativeだった：予測は正解）予測があっている：True、予測が間違っている：False、Positive：真値がPositive、Negative：真値がNegative Accuracy | どれだけ正確に予測できているか　(TP + TN ) / (TP + FP + TN + FN) Recall | どれだけ取りこぼしなく予測することができたか　TP / (TP + FN) Precision | 正と予測したものがどれだけ正しかったか　TP / (TP + FP) 復習の参考　https://qiita.com/K5K/items/5da52e99861483cae876 confidenceの閾値(threshold value＝カットオフポイント：cutoff points)・・・確信度（モデルが判断するデータがどのくらいPositiveかどうかの確率）の閾値、確率が50%以上で陽性としたい場合は閾値を0.5にする閾値を上げた場合にPresition(適合率)の値が上がり、Recallの値が下がる、これは閾値を上げた場合一般的に分類モデルが確実にPositiveだと判断した場合にPositiveと予測し、実際にPositiveでもNegativeだと判断する場合が増えるため（スパムメールの判断の場合こちらの方がよい・・・確実にスパムメールの場合だけ削除ないと、スパムメールっぽい大事なメールも削除してしまうため）閾値を下げた場合にRecall(再現度)の値が上がる、これは閾値を下げた場合一般的に分類モデルが少しでもPositiveと判断した場合にPositiveと予測し、実際はNegativeでもPositiveだと判断する場合が増えるため（がん検診の場合こちらの方がよい・・・陽性と医者が判断しないと精密検査を受けられないので、実際は陰性でも陽性の要素がある場合は陽性だと判断した方がよい。また、陽性の場合が極端に少ないため） confidenceの閾値を全ての場合について予測した結果をグラフにするとPrecision-Recall curveを描くことができる Precision-Recall curveの面積が少ないほど良いモデルとなる復習の参考　https://ontheblink.hatenablog.com/entry/2019/05/06/080623 　　　　　　https://atmarkit.itmedia.co.jp/ait/articles/2103/04/news023.html 閾値変化に対する分類結果・検出結果の振る舞いクラス分類 Thresholdを0.5に設定するとconfidenceが0.5以上のものはPositive、0.5以下のものはNegativeと分類結果（予測）として出力される Thresholdが変化しても予測の数は変化しないため混同行列のどのマスに何個入るかは変わらない物体検出(テキストP30の表のP1～P6はそれぞれバウンディングボックスを表す) Thresholdを0.5に設定するとconfidence(確信度)が0.5以上のもののみ検出結果（予測）として出力されるそのため、Thresholdを0.8に設定するとconfidenceが0.8以上の自信があるバウンディングボックスしかでてこない物体検出はThresholdを上げた場合混同行列に入る全体の予測の数が減少する IoU 物体検出においてはクラスラベルの正確さに加えて物体位置の予測精度も評価したい IoU = Area of Overlap / Area of Union Area of Overlap：真のバウンディングボックスと予測したバウンディングボックスが重なっている領域 Area of Union：真のバウンディングボックスと予測したバウンディングボックスの合計の領域 IoU・・・Intersection(領域の共通部分) over Union(領域の和集合) IoU = TP / (TP + FP + FN)・・・別名Jaccard係数予測と真のバウンディングボックスが重なっている領域がTP、予測したバウンディングボックスの中で重なっていない領域がFN、真のバウンディングボックスの中で重なっていない領域がFP 真のバウンディングボックス(Ground Truth-Bounding Box：GT-BB) IoUの直感的解釈は難しい真の領域のうちどれだけ正解していた或いは予測した領域のうちどれだけ正解していたかの方が解釈しやすいように思えるが、これは定義とするのは誤り真の領域の正解率：真の領域を大まかにすべて囲んだ予測でもよいとなってしまう予測した領域の正解率：真の領域の中でほんの一部だけを囲んだ予測でもよいとなってしまう物体検出ではconfidenceに加えてIoUの閾値を設ける IoUの閾値による正解・不正解の判断 IoUが閾値を超えた場合・・・TP（正しく検出できている） IoUが閾値を超えていない場合・・・FP（検出したが間違っている） IoUが閾値を超えているが、すでにそれよりconfidenceが高いBBの検出があった場合・・・FP 同じ物体に対してバウンディングボックスを複数検出する場合もある Recall・・・バウンディングボックスが検出されなかった物体があった場合、FNとする Average Precision（AP） cofidenceの閾値を小さい場合から高い場合（βを変化させて）までのPrecisionとRecallを計算してPR曲線を描く、IoUの閾値は固定（基本的に0.5） AP・・・PR曲線の下側面積 APの参考資料　https://qiita.com/tmtakashi_dist/items/863e1781b5252e453b47 mean Average Precision（mAP） クラスラベルごとにAPは計算できる mAP・・・すべてのクラスラベルに対するAPを合計してクラス数で割る MS COCOで導入された指標 IoUの閾値を0.5から0.95まで0.05刻みでAPとmAPを計算して合計したものを平均する(10で割る) IoUが高い・・・予測したBBがGT-BBにしっかり重なっている、IoUが0.95・・・ほぼほぼ重なっている IoUの閾値を0.5から0.95まで0.05刻みに上昇させる・・・だんだん位置を厳しく評価していっている Flames per Second：FPS 物体検出においてリアルタイム検出の場合、検出精度に加え検出速度も重要となる FPS・・・1秒間あたりに処理できるフレーム数、もちろん多い方がいいデータセットによって良いとされるAP(ｍAP)は変わってくる inference time・・・1フレーム推論するのに何秒かかったか inference timeのグラフがはみ出してる理由　https://kikaben.com/yolov3/ 検出速度のグラフ・・・横軸が違う場合があるので注意物体検知の大枠 SIFTの参考文献　https://www.cs.ubc.ca/~lowe/papers/iccv99.pdf 物体検知のフレームワークは2つに分かれる 2段階検出器・・・候補領域（どこに物体があるか）とクラス推定（物体は何なのか）を別々に行う、画像を入れたら位置をまず検出して位置を基にクラス推定を行う、1段階検出器より精度が高く、計算量が大きく推論が遅い傾向にある 1段階検出器・・・候補領域の検出とクラス推定を同時に行う、画像を入れたら特徴量抽出が行われ領域の検出とクラス推定を行う、2段階検出器より精度が低く、計算量が少なく推論が速い傾向にある → リアルタイム検出向き Two Stageの場合、物体位置を把握した後切り出して分類気に流し込んでクラス推定をする One Stageの場合、画像を入力したらどこに何があるかを出力する
物体検知とSS解説_2

SSD　Single Shot Detector・・・One Stage Detector まずはDefault BOX（適当に決めたBB）を用意する → Default BOXを変形してconfidenceを出力する VGG16はSSDのベースアーキテクチャ、16はConvolution+ReLUとFully connected+ReLUが合計16層あることを示す、max poolingを介することで特徴マップが小さくなっている（解像度が落ちている）ことに注意する入力サイズ・・・300300（SSD300）、512512（SSD512） VGG16のFully connected層（FC）2層をConvolution層（Conv）に変更し、最後のFC層を削除しているマルチスケール特徴マップ（複数の解像度の特徴マップから出力を作る）・・・途中の層からも出力を作っている基本的に1つの特徴量につき複数のDefault BOXが存在する特徴マップのサイズがmnでk個のDefault BOXを用意したときの出力 k (#Class（クラス数：クラス数分のCofidence） + 4（形状オフセット項）) mn 特徴マップごとに存在するDefault BOX数 = k mn Default Boxの数は計算量との兼ね合いで決める VOCデータセットではクラス数20に加えて背景に1クラス割り当てるため、クラス数は21となるそのため、一つのDefault Boxにつき21+4の出力がある SSDのデフォルトボックス数は8732 特徴マップについて、物理的なサイズと解像度を混同してしまう・・・サイズが小さくなるのではなく、解像度が小さくなる → 細かく描画されているか（どれだけのピクセルが含まれているか）が変わってくる（解像度が低いとモザイクがかる）解像度が高い場合、小さい物体を検出する解像度が低い場合、大きいものを検出する（1*1の場合画像全体に対する検出）多数のDefault Boxを用意したことによる弊害 Non-Maximum Suppression・・・一つの物体しか映っていなくても複数のPredicted Bounding Boxが出力されてしまう　→　冗長である解決法：IoUを計算し、一定以上のIoUのBBが重なっている場合Confidenceの大きなBBを残す、IoUが低いBBが存在する場合 → 違う物体を検出している可能性がある（馬の上に人が乗っている場合など） Hard Negative Mining・・・背景クラスを加えているため物体として写っているものより背景と判断される、Negativeクラスに属するPredicted Bounding Boxが多数存在する、そのため背景（Negative）と非背景（Positive）の数が非均衡になる解決法：PositiveとNegativeの比を1:3などの制約を付与することによりNegativeのバウンディングボックスの数を減らすその他の工夫・・・Default Boxのアスペクト比の選び方やData Augmentation（データの水増し） SSDの損失関数 LocationとConfidenceに依存していることに着目する Lconf(x, c)・・・Confidenceに対する損失関数 Lloc(x, l, g)・・・Location（検出位置）に対する損失関数原著　https://arxiv.org/abs/1701.06659https://arxiv.org/abs/1801.05918https://arxiv.org/abs/1711.06897 SSDの進化・・・Base Networkの改良（VGG16→ResNet）など論文ごとの違いについて追うとアルゴリズムの強み弱みがわかる
物体検知とSS解説_3
Semantic Segmentation(SS)の概略 SSに共通している問題、壁 ConvolutionとPoolingを重ねることにより解像度が落ちる　→　入力と解像度が違うため元の解像度に戻す操作が必要（Up-sampling） VGG16のネットワーク図をみるとmax poolingを経るごとに特徴マップの解像度が落ちていることがわかるなぜPoolingしているのか・・・受容野の大きさを確保するため物体の小さい1部分だけ見ても普通は何かわからない正しく認識するためには受容野をある程度大きくする必要がある受容野を広げる手法・・・深いConvolution層（多層化に伴う演算量・メモリの問題）、プーリング＆ストライド受容野を広げる・・・一つのカーネルで画像内の多くの情報を得る FCN(Fully Convolutional Network) VGG16の最後のFully connection層をConvolution層に置き換える出力はチャンネルごとに物体のヒートマップを得ることができる Deconvolution、Transposed convolution ・通常のConvolution層と同様にカーネルサイズ、パディング、ストライドを指定する
1. 特徴マップのピクセル間隔をストライドだけ開ける（講義では緑色の×）
2. 特徴マップの周りに(kernel size - 1) - paddingだけ余白を作る（テキストP114では余白1と計算されるため講義では赤枠）
3. 畳み込み演算を行う（講義ではオレンジ斜線部分）注意点：逆畳み込みと呼ばれるが畳み込みの逆演算ではないことに注意　→　poolingで失われた情報が復元されるわけではない Poolingを繰り返すことにより大まかには捉えられるがローカルな情報（輪郭）が失われていく低レイヤーPooling層の出力をelement-wise additionする（要素ごとに足し算する）ことでローカルな情報を補完してUp-sampling U-Net・・・低レイヤーの情報を伝達する方法特徴マップを小さくしていく部分をEncoder、大きくしていく（入力サイズに戻す）部分をDecoderと呼ぶ単純にUp-samplingするのではなくPooling前の情報を伝達するSkip-connectionを構成している FCUとの違い・・・Up-samplingした後の低レイヤー情報の結合する部分が違う U-Netは低レイヤーの情報をチャネル方向に結合している DeconvNet & SegNetも小さくなった特徴サイズを元に戻している DeconvNet & SegNetで用いられている手法・・・Unpooling Poolingした時の位置情報を保持しておくどこが最大の値だったかを保持する（switch variables） switch variablesを元にUnpoolingを行う Dilated Convolution Convolutionの段階で受容野を広げる工夫カーネルとカーネルの間に隙間を入れることで隙間を入れた分の受容野を確保する(33のカーネルの間を1ピクセル開けることで実質55のカーネルと同じ範囲の受容野となるが、計算量は33の計算量) rate=2・・・間が1マス、rate=4・・・間が3マス 1515の入力に対して3*3のConv層のみで同じ受容野を獲得しようとした場合7層必要なのに対して、Dilated Convolutionでは3層で実現する

Transformer
BERT1_Seq2seq

BERTを理解する Transformerをユニットにしてたくさん並べる Transformer：Encoder-DecoderモデルにAttentionモデルを掛け合わせたもの Seq2seq：系列(Sequence)を入力として系列を出力する、Encoder-Decoderモデルとも呼ばれる系列データ・・・自然言語や音声など Encode：入力した系列を内部状態（隠れ状態）に変換し、Decode：内部状態から系列に変換する RNNの復習再帰処理は時間軸方向に変換できる・・・系列情報を壊さずに内部状態に変換できる最終的に内部状態ベクトルを出力する言語モデルの復習単語の並びに確率を与える単語の並びがどれだけ自然かを確率化（尤度）する　→　自然であればあるほど数値が高くなる RNNでは時刻t-1までの情報で時刻tの事後確率を求めたい　→　時刻tでの同時確率を求めたい、同時確率は事後確率で分解できる argmaxP(I, have, a, w)・・・I have a の後に続く単語で確率が一番高いものはどれか言語モデルでのRNN・・・単語情報が与えられたときに次にどの単語が来れば自然かを判断するタスクある文があった時に次にどの単語が来れば自然かという確率を学習する言語の自然な並びを学習すると先頭単語を与えれば文章を生成することも可能 Seq2seq・・・RNNが2つ並んでいる Encoder・・・自然文が与えられたときに先頭から入力し内部状態ベクトルhに変換する（符号化、Encode） Decoder・・・Encoderから渡された情報とトークン（(Biginning of Sentence)）を受け取ってふさわしい文章を順々に生成していく単純なRNNとの違い・・・Decoderに内部状態ベクトルが渡されている単純なRNNの場合は初期値が決まっている DecoderのOutput側に正解を付与すれば教師あり学習がEnd to endで行える教師データとの差分が取れればlossを測ってback propagationができるため、重みの更新ができるコードでの確認 lecture_chap1_exercise_public.ipynb https://github.com/mizukihiraishi/Study-AI/blob/76ce4820f3b9723077ae4ec0ad9cccf758c69e0a/lecture_chap1_exercise_public.ipynb 今回は英語 → 日本語の変換データを見ると英語と対応した日本語が入っている load_dataをした時点で文章が単語に分割されている特殊トークンの定義 PAD・・・短い系列の末尾を埋める、BOS・・・系列の始まり、EOS・・・系列の終わり、UNK・・・語彙に存在しない単語何度か生成するとめちゃくちゃな文章と何となく整った文章が出てくる
BERT2_Transformer

Self-Attention（自己注意機構）に焦点を当てるニューラル機械翻訳・・・長さに弱い（長い文章ほどBLEUが下がる）翻訳元の文章を一つのベクトルに圧縮するため Attention 情報量が大きくなった場合に何に注意を払うべきか学習する各隠れ層の状態ごとに重みを分配する対応関係において何に注意を払って何に注意を払わないべきかを学習する Attentionは辞書オブジェクトのイメージ keyに対してqueryを入力すると対応するvalueが取り出される Transformer 従来の基本であったRNNを全く使わずSelf-Attentionを使ったモデル入出力は系列でEncoder-Decoderが存在する Attentionは二種類ある Source Target Attention・・・受け取った情報に対して狙うべき情報が近いものをAttentionベクトルとして取り出してその情報だけ注目する Self-Attention（自己注意機構）・・・Query、Key、Value全てが同じ場所から来る CNNのイメージに近い・・・ひとつの単語を入力した際に文章の単語全ての情報をConvolutionして一つのoutputとする系列をインプットして位置情報を失わないままSelf-Attention層を通過して内部状態に変換される Feed Forward Network・・・位置情報を保持したまま順伝播させる全結合層 Scaled dot product Attention・・・全単語に関するAtteintionをまとめてスケーリングする dk（次元数）に応じてスケーリングする Multi-Head Attention・・・8個のScaled Dot Product Attentionの出力をConcat それぞれの独自の注意の掛け方を学習して総合的に良い注意の掛け方とする Decoder Multi-Head Attentionが2つある理由・・・Self-Attention（図の下）とSource Target Attention（図の上）が使われている Add & Norm Add・・・入出力の差分を学習させる、出力に元々の入力を加算する Norm・・・Layer Normalizationで正則化 Position Encoding・・・入力(Embedding)に語順の情報を追加する Transformarの注意状況を確認すると言語構造を捉えていることが多い計算量のわりに表現力が豊かになるコードでの確認 lecture_chap2_exercise_public.ipynb https://github.com/mizukihiraishi/Study-AI/blob/a57e55b77985352794b4bee66756e49dece6e5e5/lecture_chap2_exercise_public.ipynb Seq2seq、Transformerそれぞれについてコードは読み返す

DCGAN
数式とソースコードによるDCGANの解説

GANとは GAN・・・GenerativeAdversarial Nets 生成器（Generator）と識別器（Discriminator）を競わせて学習する生成＆識別モデル生成モデルと識別モデルが同時に学習される Generator・・・乱数からデータを生成する Discriminator・・・入力データが真データ（学習データ）であるかを識別するテキストP3右下のグラフは真データの確率分布を表す左下のグラフは一様確率（サイコロを振ったらどの目も1/6の確率で出る）左上のグラフはG(z)のグラフ横軸のxは真データと同じ範囲ということを表す（画像であればサイズや画素数、RGBなど） GeneratorはDiscriminatorが出力する確率を見ながら生成するデータの確率分布を変えていく Discriminatorは確率の判別を正しく判断したい（Generatorを選択した場合は0に近い確率、真データを選択した場合は1に近い確率） GeneratorはDiscriminatorに誤判別させたい価値関数Vに対してDが最大化、Gが最小化を行う　min maxV(D, G) 価値関数Vはバイナリークロスエントロピー（テキストP5） yはGT(Ground Truth)を表す最適化方法 Generatorのパラメータを固定してDiscriminatorのパラメータを勾配上昇法で更新その後Discriminatorのパラメータを固定してGeneratorのパラメータを勾配降下法で更新 GANでは一般的にDのパラメータを複数回更新してGの関数を1回更新する生成データと真データの確率分布が同様であれば生成データは真データとほぼ同一確率分布はΣでなく∫ 二つの値の近さの指標・・・JSダイバージェンス JSダイバージェンスの性質・・・非負（負の値にならない）で分布が一致するときのみ0の値をとる JSダイバージェンスを価値関数の数式から抜き出す DCGAN：Deep Convolutional GAN GANを利用した画像生成モデル GANに構造的制約を設けることで生成品質を向上している Generator・・・最終層は取りうる値の範囲を決めたいのでtanh、その他はReLUで活性化 Discriminator・・・最終層は確率を出力したいのでsigmoid関数で活性化、その他はLeakyLeLU 中間層（Generatorの最初の部分とDiscriminatorの最後の部分） Generator・・・転置畳み込み層により乱数を画像にアップサンプリング（LSUNを対象としたGではRGB3チャンネルの64*64の画像） Discriminator・・・畳み込み層により画像から特徴を抽出し、最終層をsigmoid関数で活性化応用技術 Fast Bi-layer Neural Synthesis of One-Shot Realistic Head Avatars 顔写真を入力して、このように顔を動かしたい（Driver）と指定するとDriverの動きをする動画像が出力される study-ai-team/Face_App imagesとtargetに画像を入れてcreate.pyを実行するとresultsに出力される

mizukihiraishi / Study-AI

深層学習　後編 #4

mizukihiraishi / Study-AI

深層学習 後編 #4

深層学習　後編 #4