每日聚焦：進化強化學(xué)習(xí)有望進一步推進機器學(xué)習(xí)

發(fā)布日期： 2023-05-22 10:11:11 來源：萬能網(wǎng)

進化強化學(xué)習(xí)是機器學(xué)習(xí)中令人興奮的前沿，它結(jié)合了兩種不同方法的優(yōu)勢：強化學(xué)習(xí)和進化計算。在進化強化學(xué)習(xí)中，智能代理通過積極探索不同的方法并獲得成功表現(xiàn)的獎勵來學(xué)習(xí)最佳策略。

這種創(chuàng)新范式將強化學(xué)習(xí)的試錯學(xué)習(xí)與進化算法模仿自然選擇的能力相結(jié)合，從而產(chǎn)生了一種強大的人工智能開發(fā)方法，有望在各個領(lǐng)域取得突破。

(相關(guān)資料圖)

IntelligentComputing上發(fā)表了進化強化學(xué)習(xí)的綜述文章。它闡明了進化計算與強化學(xué)習(xí)相結(jié)合的最新進展，并全面介紹了最先進的方法。

強化學(xué)習(xí)是機器學(xué)習(xí)的一個子領(lǐng)域，側(cè)重于開發(fā)學(xué)習(xí)根據(jù)環(huán)境反饋做出決策的算法。成功強化學(xué)習(xí)的顯著例子包括AlphaGo和最近踢足球的GoogleDeepMind機器人。

然而，強化學(xué)習(xí)仍然面臨一些挑戰(zhàn)，包括探索和開發(fā)權(quán)衡、獎勵設(shè)計、泛化和信用分配。

進化計算模擬自然進化過程來解決問題，為強化學(xué)習(xí)問題提供了一種潛在的解決方案。通過結(jié)合這兩種方法，研究人員創(chuàng)建了進化強化學(xué)習(xí)領(lǐng)域。

進化強化學(xué)習(xí)包括六個關(guān)鍵研究領(lǐng)域：

超參數(shù)優(yōu)化：進化計算方法可用于超參數(shù)優(yōu)化。也就是說，它們可以自動確定強化學(xué)習(xí)系統(tǒng)的最佳設(shè)置。由于涉及多種因素，例如算法的學(xué)習(xí)速度及其對未來獎勵的傾向，手動發(fā)現(xiàn)最佳設(shè)置可能具有挑戰(zhàn)性。此外，強化學(xué)習(xí)的性能在很大程度上取決于所采用的神經(jīng)網(wǎng)絡(luò)的架構(gòu)，包括其層數(shù)和大小等因素。

策略搜索：策略搜索需要通過在神經(jīng)網(wǎng)絡(luò)的幫助下嘗試不同的策略來找到完成任務(wù)的最佳方法。這些網(wǎng)絡(luò)類似于強大的計算器，近似執(zhí)行任務(wù)并利用深度學(xué)習(xí)的進步。由于存在多種任務(wù)執(zhí)行可能性，搜索過程就像在一個巨大的迷宮中導(dǎo)航。隨機梯度下降是訓(xùn)練神經(jīng)網(wǎng)絡(luò)和在迷宮中導(dǎo)航的常用方法。進化計算提供了基于進化策略、遺傳算法和遺傳編程的替代“神經(jīng)進化”方法。這些方法可以確定用于強化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的最佳權(quán)重和其他屬性。

探索：強化學(xué)習(xí)代理通過與環(huán)境交互來改進。探索太少會導(dǎo)致錯誤的決策，而探索太多則代價高昂。因此，在代理人發(fā)現(xiàn)良好行為的探索與代理人對已發(fā)現(xiàn)的良好行為的利用之間存在權(quán)衡。代理人通過為其行為添加隨機性來進行探索。高效探索面臨挑戰(zhàn)：大量可能的行動、稀有和延遲的獎勵、不可預(yù)測的環(huán)境和復(fù)雜的多智能體場景。進化計算方法通過促進競爭、合作和并行化來應(yīng)對這些挑戰(zhàn)。他們鼓勵通過多樣性和引導(dǎo)進化進行探索。

獎勵塑造：獎勵在強化學(xué)習(xí)中很重要，但它們通常很少見，而且代理人很難從中學(xué)習(xí)。獎勵塑造增加了額外的細粒度獎勵，以幫助代理更好地學(xué)習(xí)。然而，這些獎勵可能會以意想不到的方式改變代理人的行為，要弄清楚這些額外獎勵應(yīng)該是什么、如何平衡它們以及如何在多個代理人之間分配信用通常需要手頭任務(wù)的具體知識。為了應(yīng)對獎勵設(shè)計的挑戰(zhàn)，研究人員使用進化計算來調(diào)整單代理和多代理強化學(xué)習(xí)中的額外獎勵及其設(shè)置。

元強化學(xué)習(xí)：元強化學(xué)習(xí)旨在開發(fā)一種通用的學(xué)習(xí)算法，該算法可以利用以前的知識適應(yīng)不同的任務(wù)。這種方法解決了傳統(tǒng)強化學(xué)習(xí)中需要大量樣本從頭開始學(xué)習(xí)每個任務(wù)的問題。然而，使用元強化學(xué)習(xí)可以解決的任務(wù)的數(shù)量和復(fù)雜性仍然有限，并且與之相關(guān)的計算成本很高。因此，利用進化計算的模型不可知和高度并行特性是釋放元強化學(xué)習(xí)全部潛力的一個有前途的方向，使其能夠在現(xiàn)實場景中學(xué)習(xí)、泛化并提高計算效率。

多目標強化學(xué)習(xí)：在一些現(xiàn)實世界的問題中，存在多個相互沖突的目標。多目標進化算法可以平衡這些目標，并在沒有解決方案看起來比其他解決方案更好時提出折衷方案。多目標強化學(xué)習(xí)方法可以分為兩種類型：將多個目標組合成一個以找到單個最佳解決方案的方法和找到一系列好的解決方案的方法。相反，一些單一目標問題可以有效地分解為多個目標，使問題解決更容易。

進化強化學(xué)習(xí)可以解決復(fù)雜的強化學(xué)習(xí)任務(wù)，即使是在具有罕見或誤導(dǎo)性獎勵的場景中也是如此。但是，它需要大量的計算資源，因此計算成本很高。人們越來越需要更有效的方法，包括改進編碼、采樣、搜索運算符、算法框架和評估。

雖然進化強化學(xué)習(xí)在解決具有挑戰(zhàn)性的強化學(xué)習(xí)問題方面已經(jīng)顯示出可喜的成果，但仍有可能取得進一步的進展。通過提高其計算效率并探索新的基準、平臺和應(yīng)用程序，進化強化學(xué)習(xí)領(lǐng)域的研究人員可以使進化方法更加有效和有用地解決復(fù)雜的強化學(xué)習(xí)任務(wù)。

日本JAZZ亚洲护士在线观看_亚欧成人中文字幕一区_码亚洲中文无码av在线_日本熟妇xxxxx乱_国产成人精品三级麻豆