欧美一区二区二区,日韩欧美一区二区在线,国产91成人精品亚洲精品,国产日韩精品一区二区,一区二区三区在线观看免费,亚洲一区中文,亚洲二区在线

首頁(yè) » 生活常識(shí) » lstm能與哪些方法相結(jié)合(為什么LSTM在參數(shù)初始化時(shí)要使用SVD方法使參數(shù)正交)

lstm能與哪些方法相結(jié)合(為什么LSTM在參數(shù)初始化時(shí)要使用SVD方法使參數(shù)正交)

分類(lèi)：生活常識(shí) 日期：2022-09-21 12:40 瀏覽：5 次

1.為什么 LSTM 在參數(shù)初始化時(shí)要使用 SVD 方法使參數(shù)正交

首先，除了 orthogonal initialization 和 uniform initialization，現(xiàn)在常用的還有 Gaussian initialization。不常用的還有 identity initialization 和現(xiàn)在“已經(jīng)被時(shí)代拋棄”的 pretraining with autoencoder。這些方法在不同的場(chǎng)景下都被人選擇了。個(gè)人感覺(jué)，比較復(fù)雜的 LSTM 用 orthogonal initialization 的人比較多，而在 research paper 討論一個(gè)小 task 時(shí)，我看到的大部分還是說(shuō)用 uniform/Gaussian。這里可能的直觀的原因是后者的 layer 和 magnitude 比較少/小。

說(shuō)到 layer 比較少，其實(shí)我是想說(shuō)，orthogonal initialization，個(gè)人認(rèn)為對(duì)于 LSTM (deep, high-dimensitional, non-convex)比較有效的原因是，（1）可以很方便地減緩 gradient vanishing/exploding problem 和 activation functions 的 saturation。因?yàn)?orthogonal matrix 的所有 vectors 都是 orthonormal 的，也就是不僅 orthogonal，還 magnitude 為 1. 這樣，在計(jì)算時(shí)候，乘上這個(gè) matrix，就可以修正 vanishing 也可以重置 saturation。(2)這個(gè)問(wèn)題應(yīng)該是和 saddle point 有關(guān)系，復(fù)雜的 LSTM 受 saddle point structures 帶來(lái)的各種問(wèn)題更嚴(yán)重，而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之間的依賴(lài)，消除 non-global minima。(3)當(dāng)然還有這幾種 initialization 都用來(lái)破壞 symmetry。

上面這是可被證實(shí)的，下面來(lái)點(diǎn)個(gè)人的猜測(cè)：這和 weight variation 也有關(guān)系。

綜上，有些人覺(jué)得這幾種方法沒(méi)區(qū)別，有人覺(jué)得有，完全是 case-by-case。我個(gè)人在實(shí)踐過(guò)程中，即使是小網(wǎng)絡(luò)，也覺(jué)得有區(qū)別。

2.如何理解LSTM后接CRF

有一個(gè)答案給的是一篇acl2016的論文，采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 cnn + lstm +crf的經(jīng)典架構(gòu)，是一個(gè)很成熟的系統(tǒng)

目前來(lái)說(shuō)，實(shí)體識(shí)別的應(yīng)用領(lǐng)域，lstm+crf是一種標(biāo)配了，短期內(nèi)我認(rèn)為只要在attention方面沒(méi)有很大的突破，這一框架都不會(huì)變化

要理解為什么lstm后面要接crf層，首先應(yīng)該理解的是crf的功能

題主問(wèn)這個(gè)問(wèn)題，想必是明白lstm的output，我們姑且不討論原理，lstm在序列標(biāo)注的問(wèn)題，落實(shí)到題主說(shuō)的ner，也就是一個(gè)seq2seq，在英文中，可以是對(duì)每一個(gè)input的單詞，對(duì)例如bieo的四個(gè)標(biāo)簽進(jìn)行預(yù)測(cè)，假設(shè)當(dāng)前輸出的事100個(gè)words，那個(gè)輸出的就是100*4的一個(gè)概率預(yù)測(cè)，這應(yīng)該就是答主的疑惑，我們直接用一個(gè)分類(lèi)器，四個(gè)里面選一個(gè)就好了，為什么要再接crf呢？

那么，我們首先考慮我們使用lstm的初衷，就是為了考慮上下文來(lái)分析當(dāng)前的tag標(biāo)注，其實(shí)crf也是接近的原理，crf意會(huì)一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖，在single crf中，你需要做的是盡可能的對(duì)每個(gè)對(duì)象挖掘多的特征，然后學(xué)習(xí)他們之間的一種“銜接”關(guān)系，在lstm后面加上crf，相當(dāng)于對(duì)lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓(xùn)練，可以使用那篇論文上的likehood函數(shù)，當(dāng)然使用labelwise的也可以，這也屬于調(diào)參的一部分

總之我個(gè)人的理解，crf相當(dāng)于對(duì)lstm信息的再利用，利用效率高于一個(gè)簡(jiǎn)單的分類(lèi)器，實(shí)際情況也適合這一點(diǎn)，題主不妨找個(gè)實(shí)例測(cè)測(cè)玩玩，也就明白了

3.為什么 LSTM 在參數(shù)初始化時(shí)要使用 SVD 方法使參數(shù)正交

首先，除了 orthogonal initialization 和 uniform initialization，現(xiàn)在常用的還有 Gaussian initialization。

不常用的還有 identity initialization 和現(xiàn)在“已經(jīng)被時(shí)代拋棄”的 pretraining with autoencoder。這些方法在不同的場(chǎng)景下都被人選擇了。

個(gè)人感覺(jué)，比較復(fù)雜的 LSTM 用 orthogonal initialization 的人比較多，而在 research paper 討論一個(gè)小 task 時(shí)，我看到的大部分還是說(shuō)用 uniform/Gaussian。這里可能的直觀的原因是后者的 layer 和 magnitude 比較少/小。

說(shuō)到 layer 比較少，其實(shí)我是想說(shuō)，orthogonal initialization，個(gè)人認(rèn)為對(duì)于 LSTM (deep, high-dimensitional, non-convex)比較有效的原因是，（1）可以很方便地減緩 gradient vanishing/exploding problem 和 activation functions 的 saturation。因?yàn)?orthogonal matrix 的所有 vectors 都是 orthonormal 的，也就是不僅 orthogonal，還 magnitude 為 1. 這樣，在計(jì)算時(shí)候，乘上這個(gè) matrix，就可以修正 vanishing 也可以重置 saturation。

(2)這個(gè)問(wèn)題應(yīng)該是和 saddle point 有關(guān)系，復(fù)雜的 LSTM 受 saddle point structures 帶來(lái)的各種問(wèn)題更嚴(yán)重，而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之間的依賴(lài)，消除 non-global minima。(3)當(dāng)然還有這幾種 initialization 都用來(lái)破壞 symmetry。

上面這是可被證實(shí)的，下面來(lái)點(diǎn)個(gè)人的猜測(cè)：這和 weight variation 也有關(guān)系。綜上，有些人覺(jué)得這幾種方法沒(méi)區(qū)別，有人覺(jué)得有，完全是 case-by-case。

我個(gè)人在實(shí)踐過(guò)程中，即使是小網(wǎng)絡(luò)，也覺(jué)得有區(qū)別。

4.如何理解LSTM后接CRF

有一個(gè)答案給的是一篇acl2016的論文，采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 cnn + lstm +crf的經(jīng)典架構(gòu)，是一個(gè)很成熟的系統(tǒng)目前來(lái)說(shuō)，實(shí)體識(shí)別的應(yīng)用領(lǐng)域，lstm+crf是一種標(biāo)配了，短期內(nèi)我認(rèn)為只要在attention方面沒(méi)有很大的突破，這一框架都不會(huì)變化要理解為什么lstm后面要接crf層，首先應(yīng)該理解的是crf的功能題主問(wèn)這個(gè)問(wèn)題，想必是明白lstm的output，我們姑且不討論原理，lstm在序列標(biāo)注的問(wèn)題，落實(shí)到題主說(shuō)的ner，也就是一個(gè)seq2seq，在英文中，可以是對(duì)每一個(gè)input的單詞，對(duì)例如bieo的四個(gè)標(biāo)簽進(jìn)行預(yù)測(cè)，假設(shè)當(dāng)前輸出的事100個(gè)words，那個(gè)輸出的就是100*4的一個(gè)概率預(yù)測(cè)，這應(yīng)該就是答主的疑惑，我們直接用一個(gè)分類(lèi)器，四個(gè)里面選一個(gè)就好了，為什么要再接crf呢？那么，我們首先考慮我們使用lstm的初衷，就是為了考慮上下文來(lái)分析當(dāng)前的tag標(biāo)注，其實(shí)crf也是接近的原理，crf意會(huì)一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖，在single crf中，你需要做的是盡可能的對(duì)每個(gè)對(duì)象挖掘多的特征，然后學(xué)習(xí)他們之間的一種“銜接”關(guān)系，在lstm后面加上crf，相當(dāng)于對(duì)lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓(xùn)練，可以使用那篇論文上的likehood函數(shù)，當(dāng)然使用labelwise的也可以，這也屬于調(diào)參的一部分總之我個(gè)人的理解，crf相當(dāng)于對(duì)lstm信息的再利用，利用效率高于一個(gè)簡(jiǎn)單的分類(lèi)器，實(shí)際情況也適合這一點(diǎn)，題主不妨找個(gè)實(shí)例測(cè)測(cè)玩玩，也就明白了。

lstm能與哪些方法相結(jié)合

上一篇：校園淚水作文400字作文(校園里留下的淚水五年級(jí)作文400字) 下一篇：難忘的旅行普通話(huà)_句子學(xué)習(xí)

聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán)，根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》，如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們，我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥(niǎo). 頁(yè)面生成時(shí)間：2.998秒

返回頂部

南宁市| 黔西县| 南部县| 都安| 中牟县| 衡东县| 交口县| 中江县| 台南市| 漯河市| 渝中区| 隆林| 仲巴县| 民县| 象州县| 新河县| 德化县| 福清市| 咸丰县| 平度市| 吉林省| 连江县| 吐鲁番市| 溆浦县| 肥西县| 博爱县| 宜都市| 松江区| 利津县| 黑河市| 昌江| 七台河市| 新宁县| 尼勒克县| 河西区| 锦州市| 资中县| 天水市| 武冈市| 利辛县| 宝丰县|