Open Gin04gh opened 6 years ago
UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction
Keywords
Memo
Implementation
References
Convolutional Neural Networks for Sentence Classification
Keywords / Deep Learning / 自然言語処理
Memo
文章を単語の分散表現の行列に変換して、これを縦がN-gram、横が単語種類数のカーネルで畳み込みする。
N-gramをいくつかのパターンを渡すことで、複数パターンのN-gramで読み込んだ畳み込みベクトルを計算して、連結して分類する仕組み。
Implementation
datascience/samples_deeplearning_python/sentence_classifier_cnn.ipynb
References
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
Keywords / Deep Learning / 判断根拠
Memo
CNNにおけるクラス分類の判定に与える影響が大きい画像箇所を可視化する手法。
クラスごとの確率スコア(softmax出力値)への影響が大きい画像箇所を、畳み込み層による特徴量マップの微分係数の大きさで特定する。
Implementation
datascience/blob/master/samples_deeplearning_python/gradcam.ipynb
References
Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning
Keywords / Deep Learning / ベイジアン / 不確実性
Memo
Dropoutを適用させた深層学習は、deep gaussian modelにおける変分ベイズ推論となる事を理論的に示している。
重みの事後分布を得ることができ、これを用いてラベルの予測分布が得られる。
これにより深層学習では明示できていなかった「予測の不確かさ」を定量化することができる。
Implementation
datascience/samples_deeplearning_python/dropout_bayesian_approximation.ipynb
References 同著者のベイジアンCNN: Bayesian Convolutional Neural Networks with Bernoulli Approximate Variational Inference 同著者のベイジアンRNN: A Theoretically Grounded Applization of Dropout in Recurrent Neural Networks
Explaining How a Deep Neural Network Trained with End-to-End Learning Steers a Car
Keywords / Deep Learning / 自動運転 / 判断根拠
Memo
PilotNetは車載カメラ画像からステアリングホイールの操舵角を予測する自動運転用モデル。
学習したPilotNetのConv層の重みを可視化することで、画像中のステアリングホイール操作に影響のある部分の可視化(Visual Backprop)を得ようという試み。
各Conv層をchannel平均をとり、 w=1, b=0 で固定したDeconv層で拡大してPointwiseでかけることで、どのConv層でも反応した特徴量次元を可視化するという仕組み。
Implementation
datascience/pilotnet_visualbackprop/notebook.ipynb
References PilotNet: https://arxiv.org/abs/1604.07316v1
Deep Reinforcement Learning with Double Q-learning
Keywords / Deep Reinforcement Learning / DQN /
Memo
DQNでは、行動を選択するQのパラメータと行動価値の評価に使うQのパラメータが同じであり、結果として行動価値を過大評価してしまい、ネットワークが発散することがあるという問題があった。
そこで、2つのQ関数を混ぜてパラメータを交互に学習をさせることで過大評価を抑え、学習を安定化させたという研究。
Implementation
datascience/open_ai/ddqn_pytorch_cartpole.ipynb
References
Dueling Network Architectures for Deep Reinforcement Learning
Keywords / Deep Reinforcement Learning / DQN /
Memo
DQNでは、 関数に対して、1回の更新で、1つの状態に対する1つの行動しか更新できなかった。
そこで 関数を状態価値関数 とAdvantage(行動優位)関数 に分解して学習させた。
については毎回更新ができるので、TD誤差の計算の伝播が早くなり、学習が早く収束ができた。
Implementation
datascience/kaggle_dataset_huge_stock_market_dataset/system_trade_dueling_ddqn.ipynb
References
Keywords / Deep Reinforcement Learning / DQN /
Memo
DQNなどにおいて、経験をランダムに選んで学習している部分を、より学習に役立つ経験を優先して学習させるようにした研究。
経験の重要性をTD誤差の絶対値を用いて表し、これを用いて確率とした上で、経験サンプリングを行うことを提案。
Implementation
datascience/kaggle_dataset_huge_stock_market_dataset/system_trade_dueling_ddqn_prioritized_experience_replay.ipynb
References
Sequence to Sequence Learning with Neural Networks
Keywords / Deep Learning / 自然言語処理 / Seq2Seq /
Memo
LSTMを使った2つのネットワーク、エンコーダー・デコーダーを用意する。
エンコーダーが読み込んだ系列のメモリ状態から、デコーダーがその後に続く系列を予測するようなネットワークアーキテクチャを提案。
論文では、機械翻訳モデルとして学習させ、原文から翻訳文の予測を実験している。
Implementation
datascience/samples_deeplearning_python/attention_seq2seq.ipynb
References
Asynchronous Methods for Deep Reinforcement Learning
Keywords / Deep Reinforcement Learning /
Memo
CPUのマルチスレッドで同時に複数のエージェントを並列で走らせ、パラメータを非同期に更新。
強化学習はActor-Criticをベースとし、kステップ先までの報酬を考慮した推定値(Advantage)を使ってパラメータを更新。
これにより、現在の状態価値が、より確からしい推定値となって、学習が早く進み、DQN(GPU)よりも早く学習できた。
Implementation
References
Maximum Classifier Discrepancy for Unsupervised Domain Adaptation
Keywords / Deep Learning / Domain Adaptation /
Memo
Implementation
References
Road Damage Detection Using Deep Neural Networks with Images Captured Through a Smartphone
Keywords / Deep Learning / Object Detection / 自動運転
Memo これまで道路損傷の有無や損傷種類の分類に対するデータが整備されていなかったため、道路損傷のデータセットを作成した研究。 また、これをオブジェクト検出した結果を記載している。 スマートフォン上での動作を前提とし推論速度を重視したアーキテクチャ(SSD Inception、SSD MobileNet)で学習させ、それぞれの損傷タイプの推定精度を測定している。 損傷タイプは、縦線のひび割れ、横線のひび割れ、亀裂のようなひび割れ、白線かすれ、横断歩道ペイントのかすれなどタイプを分けて取得されてある。 損傷タイプによっては、PrecisionやRecallが0.7以上出せるものもある。 スマートフォンによる1枚あたりの推論は1500ms。
Implementation
References https://arxiv.org/abs/1611.10012
Towards End-to-End Lane Detection: an Instance Segmentation
Keywords / Deep Learning / Semantic Segumentation / 自動運転
Memo
白線をinstancewiseに高精度で認識するため、binary lane segumentation+pixel embeffing+classification+H-Netでセグメンテーションを解く研究。
binary lane segumentationにE-Net、instancewiseに解くためDiscriminative Loss Function、カーブのフィッティングにH-Netを利用している。
tuSimple Charangeで4位の成績。
Implementation
References
Superpixel clustering with deep features for unsupervised road segmentation
Keywords / Deep Learning / Semantic Segumentation / 自動運転
Memo 車載画像に対して、ImageNetの学習済みDilated ResNetの特徴量マップを出力し双線形変換、画像のスーパーピクセルと合成して、事前情報を考慮したK-meansによる分類を行うことで、車載画像において、道路箇所を教師なしセグメンテーションする研究。
Implementation
References
Ego-Lane Analysis System (ELAS): Dataset and Algorithms
Keywords / 自動運転 /
Memo
白線認識の研究。
車載画像を道路を上から見た画像に変換(Inverse Perspective Mapping)し、停止線+横断歩道+路上標識クラスのいずれかが写っているかをNormalized Cross-Correlationでクラス推定する。
その後、画像からクラスを除去して残った直線を、ハフ変換等で取得する。
Implementation
References
Speed/accuracy trade-offs for modern convolutional object detectors
Keywords / Deep Learning / Object Detection /
Memo 物体検出モデルのアーキテクチャごとの精度・速度比較の研究。 COCOデータセットに対して、下記のアーキテクチャを組み合わせて実験、評価を行なっている。 Meta-architecture: Faster RCNN、R-FCN、SSD Feature Extractor: VGG16、MobileNet、Inception V2、ResNet101、Inception V3、Inception ResNet V2 結果、 速度重視:SSD / MobileNet or SSD / Inception V2 精度重視:Faster RCNN / Inception ResNet V2 バランスよく重視:Faster RCNN / ResNet101 or R-FCN / ResNet101 の構成が良いという結果。
Implementation
References
Binary Relevance Efficacy for Multilabel Classification
Keywords / Multilabel /
Memo Binary Relevance Learning はそのラベルかどうかの2値分類器を複数用意して走査予測させることで、マルチラベル分類を行う方法。
Inplementation
datascience/news_corpus/binary_relevance_multinomial_nb.ipynb
References
Multi-Class Confidence Weighted Algorithms
Keywords / オンライン機械学習 /
Memo
Inplementation
datascience/samples_python/confidence_weighted_learning.ipynb
References
Exact Soft Confidence-Weighted Learning
Keywords / オンライン機械学習 /
Memo
Inplementation
datascience/samples_python/soft_confidence_weighted_learning_ver1.ipynb
datascience/samples_python/soft_confidence_weighted_learning_ver2.ipynb
References
Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles
Keywords / 画像認識 / Deep Learning / Semantic Segumentation /
Memo
Implementation
References
Keywords
Memo
Implementation
References
Multivariate Aviation Time Series Modeling: VARs vs LSTMs
Keywords
Memo
Implementation
References
Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
Keywords
Memo りんな、潜在意味解析モデル Web検索文からどのページがクリックされたか→目的(潜在意味)を学習
Implementation
References
Neural Machine Translation by Jointly Learning to Align and Translate
Keywords
Memo
Implementation
References
Keywords
Memo Seq2Seqで対話モデル
Implementation
References
Incorporating Copying Mechanism in Sequence-to-Sequence Learning
Keywords
Memo CopyNet
Implementation
References
Fisher Information and Natural Gradient Learning of Random Deep Networks
Keywords / Deep learning /
Memo
Implementation
References http://d.hatena.ne.jp/det/20121218 https://twitter.com/hillbig/status/1034652389985275904
Reliable Uncertainty Estimates in Deep Neural Networks using Noise Contrastive Priors
Keywords / Deep learning /
Memo
Implementation
References
Flipout: Efficient Pseudo-Independent Weight Perturbations on Mini-Batches
Keywords / Deep learning /
Memo
Implementation
References https://medium.com/tensorflow/introducing-tensorflow-probability-dca4c304e245 https://twitter.com/hillbig/status/973854772825485312
SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations
Keywords / 自然言語処理 /
Memo 文章ベクトルを生成する方法。 文章データから得られる単語ベクトル(Word2Vec)とidf値を求め、単語ベクトルについてGMMでKクラス分類に学習し、各単語ベクトルが各クラスに属する予測確率を単語ベクトルにかけて連結して、単語ベクトル次元数*クラスタ数に次元を広げ、これにidf値をかけた新しい単語ベクトルWord-topics vectorを作成する。これを文章の構成単語について平均をとって、スパースさせたものを、文章ベクトルとして扱う。
Implementation https://github.com/Gin04gh/datascience/blob/master/news_corpus/scdv.ipynb
References
Deep Neural Net with Attention for Multi-channel Multi-touch Attribution
Keywords / Deep Learning /
Memo マルチチャンネルのアトリビューション分析にディープラーニングを用いた論文。 各接触のステータスを特徴量として、CVを予測するモデルを学習させ、Attentionで各チャンネルのCV貢献度を可視化する。 アトリビューション分析では、接触に加えて、各チャンネルの相互関係性と時間に依存した妥当なスコアリングが難しかったが、提案モデルを用いることで、接触、相互関係、時間に依存したCV貢献度の結果を得ることができた。 CV予測モデルの精度も、従来手法よりも良い結果となった。
Implementation
References
Cross-domain Recommendation via Deep Domain Adaptation
Keywords / Recommendation / Deep Learning / Domain Adaptation /
Memo Yahoo! Japanの論文。 コールドスタートユーザーに対して、ユーザー・アイテムの情報の重複を必要としない、コンテンツベースのクロスドメインレコメンデーションをDomain Adaptationで実現する方法を提案。 異なる2つのサービス(論文では映画とニュース)でDomain Adaptationを適用する研究で、購買アイテムを予測するモデルをSourceサービスで学習させて、Targetサービスでレコメンドに利用する。 Domain Separation Networkを利用しており、ドメイン間の分布の類似している部分と異なっている部分を切り分け、類似している部分で予測モデルを学習させる。また、Stacked Denoising Autoencoderでアイテム特徴量のノイズ除去を加えたモデルも提案している。 映画のデータセット(Source):11,995,769件 ニュースのデータセット(Target):10,500,000件 評価用のデータセット:38,250件(両サービスを利用しているユーザーログ) において、ユーザーログ情報を語彙数50,000のTF-IDF特徴量、アイテム(映画48,152本)のテキスト情報を語彙数20,000のTF-IDF特徴量および映画のカテゴリ、再生時間などの20,104特徴量として学習。 一般的な人気の高いアイテムを推薦する方法などと精度(指標はRecall@k, nDCG@kを利用)を比較した結果、nDCG@100の精度が良い学習モデルを選択した結果、DSNの方法が良い結果。(nDCG@1=0.0618, nDCG@10=0.2133, nDCG@50=0.2873, nDCG@100=0.2945) また、クロスエントロピーロスの値で学習モデルを選択した結果、Recallにおいて、SDAE込みのモデル(I-DSN)が良い結果。(Recall@50=0.7478, Recall@100=0.7951) ただし、いずれも一般的な人気の高いアイテムを推薦する方法よりも少し良い程度であり、圧倒的な差をつけることは出来なかった。
Implementation
References Domain Separation Networks: https://arxiv.org/abs/1608.06019
Effects of padding on LSTMs and CNNs
Keywords / Deep Learning /
Memo LSTM、CNNにおけるパディングの効果について研究した論文。 tweetの学習用データ157,860件(positive=63,001件, negative=63,287件)、評価用データ31,572件に対してLSTM,CNNでpre-padding,post-paddingで学習、精度比較を行った結果、 評価用データに対するAccuracyが LSTM+pre-padding: 80.321 LSTM+post-padding: 50.117 CNN+pre-padding: 74.721 CNN+post-padding: 74.465 となり、pre-paddingの方が良いことが示された。
Implementation
References
Keywords / Deep Learning / Domain Adaptation /
Memo Googleが提案したドメインアダプテーションのネットワークアーキテクチャの論文。 両ドメインの共通素性と固有素性のエンコード出力が離れるように、ソースドメインとターゲットドメインの共通素性のエンコード出力が近くなるように、共通素性のエンコード出力+固有素性のエンコード出力から素性復元できるように、共通素性のエンコード出力だけで分類できるように、ロス関数を構成している。 ソースドメインMNIST、ターゲットドメインMNIST-Mの場合においては、平均分類精度が、ソースドメインのみ学習=56.6%から、提案ネットワークで学習=83.2%に向上した。
Implementation
References
Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Networks
Keywords / Deep Learning / Domain Adaptation /
Memo ソースドメイン画像とランダムノイズzからターゲットドメインに類似した画像を生成するGANを学習させて、domain adaptationを実現する手法を提案。 シミュレーションで作成した画像を現実的な画像へと変換できる。 ソースドメイン:MNIST、ターゲットドメイン:MNIST-Mの実験において、domain adaptationさせたGANの生成画像で学習させることで、分類精度がソースドメインのみ学習=56.6%から、生成画像で学習=98.2%に向上、教師なしdomain adaptationの手法においてSOTA。 実装が公開されている: https://github.com/eriklindernoren/PyTorch-GAN
Implementation
References
HoloGAN: Unsupervised learning of 3D representations from natural images
Keywords / Deep Learning / GAN /
Memo: 3D構造を意識した画像生成を行わせるGANの提案。 3D Convolutionにより立体生成を行い、カメラポーズの情報となる回転などの変更(3D rigid-body transformations)を加えて、2DへのProjection unit(RenderNet)を通して画像生成を行う。 どの角度から見ても同じ物体とされるようなLossと変換した画風が同じになるようなLossを組み合わせて学習させている。 必要なデータは画像のみで、3Dポーズの教師データを必要としないで、3D表現を学習できる? Blog: https://www.monkeyoverflow.com/#/hologan-unsupervised-learning-of-3d-representations-from-natural-images/
Implementation
References https://arxiv.org/abs/1806.06575 https://arxiv.org/abs/1703.06868
Deep Neural Networks for YouTube Recommendations
Keywords / Deep Learning / Recommendation /
Memo YouTubeにおけるDeep Learningを用いたRecommendationの論文。 Deep Candidate Generation ModelとDeep Ranking Modelに分けて構成されている。 Deep Candidate Generation Modelでは、ビデオ視聴履歴の埋め込みとビデオ検索履歴の埋め込み、その他ユーザー属性値を特徴量として、実際に視聴したビデオが何かを予測するクラス分類モデルを学習させる。数百万に及ぶマルチクラス分類をビデオ分布から負例サンプリングして学習させている?(Efficient Extreme Multiclass?)ネットワークの深さ・特徴量の多さ別に候補生成モデルの性能をMAPで評価しており、最も良い条件で13%程度の性能。 Deep Ranking Modelでは、候補ビデオの埋め込み、それらの特徴量の平均、連続変数の正規化などを特徴量として、実際にクリックされたらポジティブ、クリックされなかったらネガティブと学習させる。これを重み付きロジスティック回帰で重み付けしている?ランキングモデルもネットワークの深さを深くするほど、ロスが下がることが示されている。 実際にこの手法をプロダクトインしてどの程度効果が得られたかは記載なし?
Implementation
References