h - owakusoのブログ

2~3時間調べましたけど

・勾配消失は深い層の学習で、入力に近い所に起こる

・RNNにデカいデータ突っ込むと原理的にそうなる

・LSTMだと大丈夫←は？

という感じ。活性化関数に関わらず、シグモイドでもtanhでも消える時は消える。それはそう。

まだ理解してないけど

・微分して1になれば消失も発散もしない

・微分して1だと重みが更新できない

・ゲートを使えば更新できる

が暫定の理解。全部間違ってるかも。

活性化というより、なんかそういう塊の方に本質があるっぽい。

結構歴史が深くて、真面目に勉強すると掛かりそう。

スキップしても良いんだけど、正直時系列にしか興味ないので・・・。

RNNにReLU使おうぜ！的なモチベーションはこの辺りなんだろうな。デフォルトがtanhなの逆に違和感ある。まぁ何か理由はあるのだろうと。

重みで割らないなら一緒か。いや言うほど一緒か？

この様に、何も分からんという話。シコモデルはいつ出来上がるのか。