2~3時間調べましたけど
・勾配消失は深い層の学習で、入力に近い所に起こる
・RNNにデカいデータ突っ込むと原理的にそうなる
・LSTMだと大丈夫←は?
という感じ。活性化関数に関わらず、シグモイドでもtanhでも消える時は消える。それはそう。
まだ理解してないけど
・微分して1になれば消失も発散もしない
・微分して1だと重みが更新できない
・ゲートを使えば更新できる
が暫定の理解。全部間違ってるかも。
活性化というより、なんかそういう塊の方に本質があるっぽい。
結構歴史が深くて、真面目に勉強すると掛かりそう。
スキップしても良いんだけど、正直時系列にしか興味ないので・・・。
RNNにReLU使おうぜ!的なモチベーションはこの辺りなんだろうな。デフォルトがtanhなの逆に違和感ある。まぁ何か理由はあるのだろうと。
重みで割らないなら一緒か。いや言うほど一緒か?
この様に、何も分からんという話。シコモデルはいつ出来上がるのか。