国科大高级人工智能-总结
生活随笔
收集整理的這篇文章主要介紹了
国科大高级人工智能-总结
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文章目錄
- 1.概論
- 2. 搜索
- A\*最優(yōu)性
- 三個(gè)傳教士與野人
- 3.神經(jīng)網(wǎng)絡(luò)
- RBM DBN DBM hopfield比較
- 結(jié)構(gòu)及特性
- 逐層貪婪訓(xùn)練與CD
- BP
- GAN
- 4.邏輯
- 一個(gè)永遠(yuǎn)無(wú)法歸結(jié)結(jié)束的FOL
- 合取范式規(guī)范化
- 歸結(jié)原理
- 4.1resolution是完備的、可靠的
- Modus ponens
- 4.1 蘊(yùn)含與包含的證明
- 蘊(yùn)含與implication的關(guān)系
- 5. 模糊數(shù)學(xué)和遺傳算法
- 6. 強(qiáng)化學(xué)習(xí)
- 7. 群體智能
- 8. 博弈
- 田忌賽馬
- 剪刀石頭布
- 性別之戰(zhàn)
- 拍賣
- 討價(jià)
- 討價(jià)的情形
- 打官司
- 海盜分金幣
- 匹配問(wèn)題分宿舍
- 中介
1.概論
- 符號(hào)學(xué)派
- 聯(lián)結(jié)學(xué)派
- 行為學(xué)派
2. 搜索
- A*=UCS+貪婪搜索
- UCS:看已經(jīng)花費(fèi)的
- 貪婪搜索:啟發(fā)搜索,看未來(lái)(TSP-距離目標(biāo)的直線距離)
- A*:過(guò)去未來(lái)都看
- A*樹搜索:h(n)可采納
- h(n)<=h*(n)
- A*圖搜索:h(n)是一致的
- h(A)-h?<=cost(A to C)
- h(A)>h?–遞減
- f(A)<f?(連續(xù)性?)
- 如果算法不檢測(cè)重復(fù)狀態(tài),線性問(wèn)題會(huì)變成指數(shù)問(wèn)題
| DFS(深度優(yōu)先) | 深度優(yōu)先(從左往右,得到最左結(jié)果, | O(bm)O(b^m)O(bm) | O(bm)O(bm)O(bm) | (不完備)有限就有解 | 無(wú) | 堆棧 |
| Depth-limited(深度優(yōu)先) | 深度優(yōu)先,限制最長(zhǎng)搜索深度,超過(guò)就換一條 | O(bl)O(b^l)O(bl) | O(bl)O(bl)O(bl) | (不完備)m有限就有解 | 無(wú) | 堆棧 |
| Iterative-Depth(深度優(yōu)先) | 逐層限制深度,使用DFS(DFS的空間+BFS的最優(yōu)) | O(bd)O(b^d)O(bd) | O(bd)O(bd)O(bd) | 有解,s必然有限 | 無(wú) | 堆棧 |
| BFS | 寬度優(yōu)先,會(huì)得到最淺層的解 | O(bd)O(b^d)O(bd) | O(bd)O(b^d)O(bd) | 有解,s必然有限(完備) | 最優(yōu)(無(wú)權(quán)時(shí)才最優(yōu) | 隊(duì)列 |
| UCS(代價(jià)一致搜索 | 優(yōu)先隊(duì)列BFS,考慮當(dāng)前代價(jià)(優(yōu)先級(jí)),BFS是UCS的特例,g(x) | O(b[C?/?])O(b^[C^*/\epsilon])O(b[C?/?]) | O(b[C?/?])O(b^[C^*/\epsilon])O(b[C?/?]) | 完備 | 最優(yōu) | 優(yōu)先隊(duì)列 |
| 啟發(fā)式搜索 | 使用額外信息(如到終點(diǎn)的長(zhǎng)度)–啟發(fā)函數(shù)h(x) | - | - | - | - | - |
| 貪婪搜索 | h(x)最好的先擴(kuò)展 | 快速,最壞同DFS(全樹擴(kuò)展) | - | (完備) | 最大問(wèn)題在于往往找不到最優(yōu)解 | 優(yōu)先隊(duì)列 |
| A* | UCS+貪婪,優(yōu)先級(jí)用f(x)=g(x)+h(x),目標(biāo)出列時(shí)才停止 | 指數(shù) | 指數(shù) | (完備) | 實(shí)際h>估計(jì)h,且目標(biāo)出列時(shí)結(jié)束的情況,最優(yōu)(往好了估計(jì)) | 花費(fèi)的話小的優(yōu)先隊(duì)列 |
| A*圖搜索 | 去除樹中重復(fù)節(jié)點(diǎn)(一個(gè)狀態(tài)則不擴(kuò)展)(保證h(A)<=實(shí)際,且h(A)-h?<=弧cost(一致性) | 指數(shù) | 指數(shù) | (不完備)完備(樹有的狀態(tài)他都有) | 弧一致時(shí)最優(yōu) | 優(yōu)先隊(duì)列 |
| 貪婪 | 快速地向目標(biāo)方向擴(kuò)展, | 不一定能夠得到最優(yōu)解 |
| UCS | 所有方向等可能擴(kuò)展 | 能夠得到最優(yōu)解 |
| A* | 朝著最優(yōu)解方向擴(kuò)展 | 能夠得到最優(yōu)解 |
| 爬山法(如SGD) | 1.任意位置起始,2.移動(dòng)到最好的相鄰位置,3.無(wú)最好則結(jié)束 | - | - | (不完備) | 無(wú) |
| 模擬退火(從爬山法改進(jìn)) | 1.任意位置起始,2.移動(dòng)到最好的相鄰位置,3.不好的狀態(tài)則以eΔE/Te^{\Delta E/T}eΔE/T概率接受 | - | - | (不完備) | 下降夠慢,則最優(yōu) |
| 遺傳算法 | 1.選最好的N個(gè)(基于適應(yīng)度函數(shù)),2.這幾個(gè)配對(duì),并雜交,3.隨機(jī)變異各串中的一個(gè),重復(fù) | - | - | (不完備) | ? |
A*最優(yōu)性
- 證明A*樹搜索最優(yōu)(使用了可采納啟發(fā))
- B-次優(yōu),A-最優(yōu),h-可采納的,證明A在B前離開邊緣集合(出隊(duì)列)
- 假設(shè)B和A的祖先n在邊緣集合上
- 那么,n會(huì)在B之前被擴(kuò)展
- f(n)<=f(A)(因?yàn)檫€未到達(dá)終點(diǎn),f(A)=g(A)就是實(shí)際全程耗散)
- f(A)<f(B)(g(A)<g(B),且h(A)=h(B)=0到達(dá)終點(diǎn)了)
- 所以,n先擴(kuò)展
- 所以A的所有祖先都在B之前擴(kuò)展
- A在B之前擴(kuò)展
- 所以,A*最優(yōu)
- B-次優(yōu),A-最優(yōu),h-可采納的,證明A在B前離開邊緣集合(出隊(duì)列)
- 前提:一致性–就是可采納性
- h(A)<=實(shí)際,
- 且h(A)-h?<=弧cost(一致性)
- 采用一致的h(啟發(fā)函數(shù),所以
- f單調(diào)遞增
- 對(duì)每個(gè)狀態(tài)s,到達(dá)s最優(yōu)的節(jié)點(diǎn),優(yōu)于次優(yōu)
- 所以是最優(yōu)的
- 假定到達(dá)G*(最優(yōu)值)的路徑上某個(gè)n不能進(jìn)入隊(duì)列,因?yàn)槟硞€(gè)具有相同狀態(tài)且較差的n’先被擴(kuò)展了
- 找到樹中最高的這個(gè)節(jié)點(diǎn)n
- p是n的祖先,且n’出列時(shí)在隊(duì)列里
- f§<f(n)(遞增
- f(n)<f(n’)次優(yōu)
- p應(yīng)該在n’之前被擴(kuò)展
- 矛盾
- 得證先到達(dá)G*
三個(gè)傳教士與野人
- M-左岸傳教士數(shù)目
- C-左岸野人數(shù)目
- B-左岸是否有船
- Pcm-有c個(gè)傳教士,m個(gè)野人從左岸到右岸
- Qcm-有c個(gè)傳教士,m個(gè)野人從右岸到左岸
- 問(wèn)題有解所必須的特性
- M>=C且(3-M)>=(3-C)<==>M=C
- 或者M(jìn)=0,M=3
- 安全狀態(tài)(以左岸為例):
- 傳教士與野人的數(shù)目相等;
- 傳教士都在左岸;
- 傳教士都不在左岸。
- 完全狀態(tài)圖:不滿足約束的不在圖內(nèi))
3.神經(jīng)網(wǎng)絡(luò)
- 局部連接
- 參數(shù)共享
- 子采樣
- 信息熵
- 系統(tǒng)不確定性的度量
- 系統(tǒng)永久恒定在某一狀態(tài)后,該系統(tǒng)的信息熵最小
- 除了香農(nóng)熵,有多種定義方式
- Ent(D)=?Σk=1∣y∣pklogpkEnt(D)=-\Sigma_{k=1}^{|y|} p_klogp_kEnt(D)=?Σk=1∣y∣?pk?logpk?
- 純度越高,值越小
- 信息增益
- 決策樹劃分節(jié)點(diǎn)依據(jù)信息增益來(lái)
- Gain(D,a)=Ent(D)?Σv=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\Sigma_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)Gain(D,a)=Ent(D)?Σv=1V?∣D∣∣Dv∣?Ent(Dv)
- 選擇增益大的劃分
- 條件熵
- 是條件熵Σv=1V∣Dv∣∣D∣Ent(Dv)是條件熵\Sigma_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)是條件熵Σv=1V?∣D∣∣Dv∣?Ent(Dv)
- 信息增益應(yīng)該是使得條件熵變小
- –>決策樹讓條件熵變小
- 因?yàn)楦兄獧C(jī)只在線性可分問(wèn)題下收斂(有限步內(nèi)收斂)
- 感知機(jī)收斂定理:線性可分則收斂
- w、x是增廣得到的
- 若數(shù)據(jù)集可分,
- 存在w?(∣∣w?∣∣=1),γ>0,使得ytw?xt≥γw^*(||w^*||=1),\gamma>0,使得y_tw^*x_t\geq \gammaw?(∣∣w?∣∣=1),γ>0,使得yt?w?xt?≥γ
- 令最終分離超平面參數(shù)為w?(∣∣w?∣∣=1)w^*(||w^*||=1)w?(∣∣w?∣∣=1)
- wkw?=(wk?1+xtyt)w?≥wk?1w?+γ≥...≥kγw_kw^*=(w_{k-1}+x_ty_t)w^* \geq w_{k-1}w^* + \gamma \geq ...\geq k\gammawk?w?=(wk?1?+xt?yt?)w?≥wk?1?w?+γ≥...≥kγ
- ∣∣wk∣∣2=∣∣wk+1+xtyt∣∣2=∣∣wk?1∣∣2+2wk?1Txtyt+∣∣xt∣∣2||w_k||^2=||w_{k+1}+x_ty_t||^2=||w_{k-1}||^2+2w_{k-1}^Tx_ty_t+||x_t||^2∣∣wk?∣∣2=∣∣wk+1?+xt?yt?∣∣2=∣∣wk?1?∣∣2+2wk?1T?xt?yt?+∣∣xt?∣∣2——yt=1
- ≤∣∣wk?1∣∣2+∣∣xt∣∣2≤∣∣wk?1∣∣2+R2≤...≤kR2\leq ||w_{k-1}||^2+||x_t||^2\leq ||w_{k-1}||^2+R^2 \leq ...\leq kR^2≤∣∣wk?1?∣∣2+∣∣xt?∣∣2≤∣∣wk?1?∣∣2+R2≤...≤kR2
- 所以kγ≤wkw?≤∣∣wk∣∣∣∣w?∣∣≤kRk\gamma \leq w_kw^* \leq ||w_k||||w^*|| \leq \sqrt{k} Rkγ≤wk?w?≤∣∣wk?∣∣∣∣w?∣∣≤k?R
- k≤R2γ2k\leq \frac{R^2}{\gamma^2}k≤γ2R2?
- 以超平面來(lái)劃分兩類樣本
- 感知機(jī)收斂定理:線性可分則收斂
- 感知機(jī)學(xué)習(xí)是在假設(shè)空間中選取使得損失函數(shù)最小的參數(shù)模型
- 訓(xùn)練w=w+/?x,小了就調(diào)大一點(diǎn),大了就調(diào)小一點(diǎn),一個(gè)x調(diào)整一次w=w+/-x,小了就調(diào)大一點(diǎn),大了就調(diào)小一點(diǎn),一個(gè)x調(diào)整一次w=w+/?x,小了就調(diào)大一點(diǎn),大了就調(diào)小一點(diǎn),一個(gè)x調(diào)整一次
- 感知機(jī)存在的問(wèn)題
- 噪聲(線性不可分)
- 泛化性
- 異或問(wèn)題是非線性問(wèn)題(帶進(jìn)去看一下)
- 證明
- 假設(shè)可以解,y=ω1x1+ω2x2+θ則ω1、?ω2?和θ?必須滿足如下方程組:
- ω1 + ω2 - θ < 0–(1,1,)–0
- θ > ω1 + ω2
- ω1 + 0 - θ ≥ 0
- 0 ≥ θ - ω1
- 0 + 0 - θ < 0
- θ > 0
- 0 + ω2 - θ ≥ 0
- 0 ≥ θ - ω2
- 顯然,該方程組是矛盾的,無(wú)解!這就說(shuō)明單層感知器是無(wú)法解決異或問(wèn)題的。
- 證明
- 困難:
- 梯度消失,梯度爆炸
- 局部極小
- 只能用于標(biāo)注數(shù)據(jù)
- why梯度消失
- 因?yàn)锽P算法采用鏈?zhǔn)椒▌t,從后層向前層傳遞信息時(shí),
- 若每層神經(jīng)元對(duì)上一層神經(jīng)元偏導(dǎo)乘以w均小于1,多次鏈?zhǔn)椒▌t,多級(jí)導(dǎo)數(shù)權(quán)值相乘結(jié)果會(huì)越來(lái)越小,導(dǎo)致loss傳遞到越前方越小。
- w采用正態(tài)分布初始化<1
- ?yi?zi<1\frac{\partial y_i}{\partial z_i}<1?zi??yi??<1
RBM DBN DBM hopfield比較
| Hopfield網(wǎng)絡(luò) | 單層,全連接(有權(quán),無(wú)向圖)wij=wji,wii=0 | 1,-1(0),確定性地取1、0 | E=?12STωSE=-\frac{1}{2}S^T\omega SE=?21?STωS | 1.確定性地接受能量下降方向;2.會(huì)達(dá)到局部極小(模擬退火解決,以一定概率接受能量上升) |
| Boltzman機(jī)器 | p(v)符合玻爾茲曼分布,生成模型,有隱層(與外部無(wú)連接),有可見層(輸入層、輸出層)(與外部有鏈接,收到外部約束),全連接(同層也有)(有權(quán)無(wú)向圖)wij=wji,wii=0 | 1(on),0(off),狀態(tài)滿足boltzman分布,以p取1(二值神經(jīng)元) | PαPβ=exp(?(E(Sα)?E(Sβ))/T)\frac{P_\alpha}{P_\beta}=exp(-(E(S^\alpha)-E(S^\beta))/T)Pβ?Pα??=exp(?(E(Sα)?E(Sβ))/T) | 1.接受能量下降,以p(p(si=1)=11+exp(?bi?Σjsjwji)p(s_i=1)=\frac{1}{1+exp(-b_i-\Sigma_js_jw_{ji})}p(si?=1)=1+exp(?bi??Σj?sj?wji?)1?)接受能量上升(模擬退火)2.訓(xùn)練時(shí)間長(zhǎng),3.結(jié)構(gòu)復(fù)雜,4.也可能局部極小;5.功能強(qiáng)大 |
| RBM(受限Boltzman機(jī) | p(v)符合玻爾茲曼分布,生成模型,區(qū)別:同層無(wú)連接,其他全連接,可見層1(輸入v)、隱藏層1(h,給定可視層下,條件獨(dú)立)(二部圖) | vi,hj,{0,1},以p取1(二值神經(jīng)元) | 聯(lián)合組態(tài)能量函數(shù)E(v,h;θ)=?Σijwijvihj?Σibivi?Σjajhj,pθ(v,h)=1Z(θ)exp(?E),目標(biāo)函數(shù)log(pθ(v))(極大似然)E(v,h;\theta)=-\Sigma_{ij}w_{ij}v_ih_j-\Sigma_{i}b_{i}v_i-\Sigma_{j}a_{j}h_j, p_\theta(v,h)=\frac{1}{Z(\theta)}exp(-E),目標(biāo)函數(shù)log(p_\theta(v))(極大似然)E(v,h;θ)=?Σij?wij?vi?hj??Σi?bi?vi??Σj?aj?hj?,pθ?(v,h)=Z(θ)1?exp(?E),目標(biāo)函數(shù)log(pθ?(v))(極大似然) | |
| DBN | 生成模型,多層,頂層無(wú)向圖(RBM)(hn-1-hn),低層(v<-hn-1),去除上層,下層是個(gè)RBM | (二值神經(jīng)元) | 從下到上逐層當(dāng)做RBM訓(xùn)練 | 低層是單向的與RBM不一致,所以提出了DBM |
| DBM | p(v)符合玻爾茲曼分布,生成模型,多層,全無(wú)向圖 | (二值神經(jīng)元) | 雙向,每層需要考慮上下層神經(jīng)元(多層)E(v,h1,h2;θ)=?vTW1h1?h1TW2h2;p(v)=Σh1,h21Zexp(?E)E(v,h^1,h^2;\theta)=-v^TW^1h^1-h^{1T}W^2h^2;p(v)=\Sigma_{h1,h2}\frac {1}{Z}exp(-E)E(v,h1,h2;θ)=?vTW1h1?h1TW2h2;p(v)=Σh1,h2?Z1?exp(?E) | 低層是單向的與RBM不一致,所以提出了DBM |
結(jié)構(gòu)及特性
- DNN 全連接
- Hopfield 全連接,確定性閾值神經(jīng)元
- 參數(shù)計(jì)算得到
- BM 全連接,二值神經(jīng)元
- RBM/DBM 無(wú)向圖,層間全連接,二值神經(jīng)元
- 逐層貪婪訓(xùn)練
- DBN 低層有向<–,高層無(wú)向(高->低)
- 逐層貪婪訓(xùn)練
- RNN 權(quán)值共享的多層前向神經(jīng)網(wǎng)絡(luò)(循環(huán))
- 序列、時(shí)間
- 不同時(shí)間的RNN權(quán)值一樣
- BPTT訓(xùn)練(LSTM也是)
- CNN 局部連接,參數(shù)共享,子采樣
- 圖
- 改進(jìn):用relu和dropout
逐層貪婪訓(xùn)練與CD
- DBN 逐層貪婪訓(xùn)練
- 僅保留v,h1層,使用CD-1訓(xùn)練得到W1
- 增加h2層,保持W1不變,h1右Q(h1|v)采樣得到作為輸入。h1/h2使用CD-1訓(xùn)練得到W2
- 類比
- DBM 逐層貪婪訓(xùn)練
- 訓(xùn)練時(shí)采用雙方向(上下兩層),同時(shí)考慮兩個(gè)或多個(gè)隱層
- 由能量模型也可以得到p(v)——也符合boltzman分布
- p(v)=Σh1,h2,h31Zexp(vTW1h1+h1TW2h2+h2TW3h3)p(v)=\Sigma_{h1,h2,h3}\frac {1}{Z}exp(v^TW^1h^1+h^{1T}W^2h^2+h^{2T}W^3h^3)p(v)=Σh1,h2,h3?Z1?exp(vTW1h1+h1TW2h2+h2TW3h3)
- 兩層的能量:E(v,h1,h2;θ)=?vTW1h1?h1TW2h2E(v,h^1,h^2;\theta)=-v^TW^1h^1-h^{1T}W^2h^2E(v,h1,h2;θ)=?vTW1h1?h1TW2h2
- p(v)=Σh1,h21Zexp(?E)p(v)=\Sigma_{h1,h2}\frac {1}{Z}exp(-E)p(v)=Σh1,h2?Z1?exp(?E)
- p(hj1=1∣v,h2)=σ(ΣiWij1vi+ΣWjm2hj2)p(h^1_j=1|v,h^2)=\sigma(\Sigma_iW^1_{ij}v_i+\Sigma W^2_{jm}h_j^2)p(hj1?=1∣v,h2)=σ(Σi?Wij1?vi?+ΣWjm2?hj2?)
- p(hm2=1∣h1)=σ(ΣiWim2hi1)p(h_m^2=1|h^1)=\sigma(\Sigma_iW^2_{im}h_i^1)p(hm2?=1∣h1)=σ(Σi?Wim2?hi1?)
- p(vi=1∣h1)=σ(ΣiWij1hj)p(v_i=1|h^1)=\sigma(\Sigma_iW^1_{ij}h_j)p(vi?=1∣h1)=σ(Σi?Wij1?hj?)
- CD-1
- p(v∣θ)極大似然估計(jì),得到導(dǎo)數(shù)?p(v)?wij?p(v)?bi?p(v)?ajp(v|\theta)極大似然估計(jì),得到導(dǎo)數(shù)\\\frac{\partial p(v)}{\partial w_{ij}}\\\frac{\partial p(v)}{\partial b_{i}}\\\frac{\partial p(v)}{\partial a_{j}}p(v∣θ)極大似然估計(jì),得到導(dǎo)數(shù)?wij??p(v)??bi??p(v)??aj??p(v)?
- 依據(jù)導(dǎo)數(shù),對(duì)觀測(cè)變量的所有維度的梯度求和平均,來(lái)更新參數(shù)依據(jù)導(dǎo)數(shù),對(duì)觀測(cè)變量的所有維度的梯度求和平均,來(lái)更新參數(shù)依據(jù)導(dǎo)數(shù),對(duì)觀測(cè)變量的所有維度的梯度求和平均,來(lái)更新參數(shù)
BP
- BP算法流程:
- 選取訓(xùn)練數(shù)據(jù)輸入網(wǎng)絡(luò)
- 根據(jù)權(quán)重與激活函數(shù)計(jì)算輸出
- 算出實(shí)際輸出與目標(biāo)輸出之間的誤差
- 反向傳播誤差使全局誤差最小
- BPTT
- 不同時(shí)間的相加一起更新
GAN
- GAN
- 核心思想:博弈論的納什均衡——對(duì)抗達(dá)到平衡(共同進(jìn)步)
- 生成器:盡量生成真實(shí)的分布——努力讓判別器認(rèn)不出來(lái)
- 輸入向量,輸出圖或序列。。。
- 不同的向量表示不同的特征
- 想要發(fā)現(xiàn)數(shù)據(jù)的分布Pdata(x)P_{data}(x)Pdata?(x)
- 假設(shè)一個(gè)分布Pdata(x;θ),用極大似然去找θP_{data}(x;\theta),用極大似然去找\thetaPdata?(x;θ),用極大似然去找θ
- 判別器:區(qū)分是生成的還是真實(shí)的(努力讓他能認(rèn)出生成器生成的數(shù)據(jù))
- 輸入:圖片
- 輸出:標(biāo)量評(píng)分
- 分越大,越真實(shí)–1
- 分小則假–0.1
- 生成器:盡量生成真實(shí)的分布——努力讓判別器認(rèn)不出來(lái)
- 基本原理:有一個(gè)判別器有一個(gè)生成器,生成器生成圖片讓判別器判別,生成器提升自己讓判別器無(wú)法判別,判別器則提升自己努力識(shí)別出生成器生成的圖片/序列,雙方對(duì)抗達(dá)到平衡
- 學(xué)習(xí)算法
- 固定生成器G0,訓(xùn)練判別器,提升判別器的判別能力得到D1
- 固定判別器D1,訓(xùn)練生成器,提升生成器的生成能力,目標(biāo)讓判別器無(wú)法識(shí)別,得到G1
- 再回到1中用G1訓(xùn)練判別器得到D2,…,依次迭代,直至兩者平衡。
- V(G,D)=1mΣi=1m[log(D(xi))]+1mΣi=1m[log(1?D(G(zi)))](G固定)V(G,D)=\frac{1}{m}\Sigma_{i=1}^m[log(D(x^i))]+\frac{1}{m}\Sigma_{i=1}^m[log(1-D(G(z^i)))] (G固定)V(G,D)=m1?Σi=1m?[log(D(xi))]+m1?Σi=1m?[log(1?D(G(zi)))](G固定)
- V(G,D)=1mΣi=1m[log(1?D(G(zi)))](d固定)V(G,D)=\frac{1}{m}\Sigma_{i=1}^m[log(1-D(G(z^i)))] (d固定)V(G,D)=m1?Σi=1m?[log(1?D(G(zi)))](d固定)
- 核心思想:博弈論的納什均衡——對(duì)抗達(dá)到平衡(共同進(jìn)步)
4.邏輯
- 勝者為王,敗者為寇
- (?x,Winner(x)=>King(x))∧(?y,Loser(y)=>Kou(y))(? x,Winner(x)=>King(x))∧(? y,Loser(y)=>Kou(y))(?x,Winner(x)=>King(x))∧(?y,Loser(y)=>Kou(y))
- ?x?y,Win(x,y)=>King(x)∧Kou(y)? x? y,Win(x,y)=>King(x)∧Kou(y)?x?y,Win(x,y)=>King(x)∧Kou(y)
- 畫圖表示
- 很少有成績(jī)好的學(xué)生特別貪玩
- 很少就可以是量詞
- ΔxG(x)=>P′(x)\Delta x G(x)=>P'(x)ΔxG(x)=>P′(x)
- '–加強(qiáng)了變成了原來(lái)的平方
- 大多數(shù)成績(jī)好的學(xué)生學(xué)習(xí)都很刻苦。
ΣxG(x)=>H′(x)\Sigma x G(x)=>H'(x)ΣxG(x)=>H′(x)
一個(gè)永遠(yuǎn)無(wú)法歸結(jié)結(jié)束的FOL
合取范式規(guī)范化
- ? (? x){P(x)=>{(?y)[p(y)=>P(f(x,y))]∧?(? y)(?w)[Q(x,y)=>P(y,w)]}}
- 去除=>
- 否定內(nèi)移
- 改換符號(hào)y->z
- 去除存在量詞
- 全局的:A
- 局部的:g(z)
- 全稱量詞前移
- 消除全稱量詞
- 變換成CNF
歸結(jié)原理
- 一階謂詞邏輯要合一化(置換)
4.1resolution是完備的、可靠的
- 可靠性:|- --> |=
- 歸結(jié)的過(guò)程是可靠的
- 歸結(jié)過(guò)程:C1、C2中有互補(bǔ)文字==》C1∨C2
- 已知C1,C2 |- C1∨C2
- 證明C1,C2 |= C1∨C2
- 因?yàn)橥评硪?guī)則是可靠的(檢查真值表)
| false | false | false |
| true | false | true |
| false | true | true |
| true | true | true |
-
完備性:
- 已知C1,C2 |= C1∨C2
- 證明C1,C2 |- C1∨C2
- RC(S)–歸結(jié)閉集 resolution closure–所有S歸結(jié)出來(lái)的都在RC(S)中=PL-Resolution(KB,α\alphaα)的最終clauses
- S={KB,?α\alphaα}
- KB |=α\alphaα<>KB∧ ?α\alphaα不可滿足(永假)<=>S不可滿足
- S={KB,?α\alphaα}
- ground resolution theorem:S不可滿足==>RC(S)中包含空子句
- 證明:從逆否命題入手:S可滿足<==RC(S)中不包含空子句
- 因?yàn)镽C(S)是有限的,所以PL-Resolution(KB,α\alphaα)總是可以終止的
- PL-Resolution(KB,α\alphaα)的終止條件是clauses中包含空子句
-
ground resolution theorem:S不可滿足==>RC(S)中包含空子句
- 證明:從逆否命題入手:RC(S)中不包含空子句==>S可滿足
Modus ponens
4.1 蘊(yùn)含與包含的證明
蘊(yùn)含與implication的關(guān)系
5. 模糊數(shù)學(xué)和遺傳算法
- 遺傳算法模擬自然界優(yōu)勝劣汰過(guò)程進(jìn)行優(yōu)化問(wèn)題的求解
- 利用選擇、交叉、變異產(chǎn)生更多可能的解
- 目標(biāo)函數(shù):天然可作為遺傳算法的適應(yīng)度函數(shù)
- 選擇-受適應(yīng)度函數(shù)控制
- 交叉、變異–不受適應(yīng)度函數(shù)控制
- 以某種概率進(jìn)行交叉、變異
6. 強(qiáng)化學(xué)習(xí)
| 貪心策略 | At=argmaxaQt(a)(均值)At=argmax_aQ_t(a)(均值)At=argmaxa?Qt?(a)(均值) | 確定性算法 | 目標(biāo)是當(dāng)前行為的期望收益 |
| ?\epsilon?貪心策略 | 1??1-\epsilon1??:貪心選擇;?\epsilon?:隨機(jī)選擇 | 確定性算法 | - |
| 樂(lè)觀初值法Optimistic initial values | 每個(gè)行為的初值都高Q1高,?=0\epsilon=0?=0, | 確定性算法 | 初始只探索,最終貪心 |
| UCB | AT=argmaxa(Qt(a)+clntNt(a)),Nt(a)?a被選擇的次數(shù)A_T=argmax_a(Q_t(a)+c\sqrt{\frac{lnt}{N_t(a)}}),N_t(a)-a被選擇的次數(shù)AT?=argmaxa?(Qt?(a)+cNt?(a)lnt??),Nt?(a)?a被選擇的次數(shù) | 確定性算法 | 最初差,后比貪心好,收斂于貪心 |
| 梯度賭博機(jī)算法 | $P(A_t=a)=\frac{e{H_t(a)}}{\Sigma_b=1k e^{H_t(b)}}=\pi_t(a).優(yōu)化目標(biāo) E(R_t)=\Sigma_b\pi_t(b)q(b) $ | 不確定性算法 | 更新Ht |
- 多臂賭博機(jī):累積收益最大=每次搖臂的平均期望收益最大
-
計(jì)算時(shí),還是按照上下左右的策略計(jì)算的–貝爾曼方程,而不是貝爾曼最優(yōu)方程
-
方法比較
- 蒙特卡羅:深
- 動(dòng)態(tài)規(guī)劃:寬
- 時(shí)序差分,只有一個(gè)
7. 群體智能
| 基本原理 | 局部隨機(jī)搜索與正反饋相結(jié)合 | |
| 算法過(guò)程 | 1.隨機(jī)放置螞蟻;2.對(duì)每個(gè)螞蟻,依據(jù)概率P(與鄰接路徑的信息素濃度和啟發(fā)式信息有關(guān))選擇下一步移動(dòng)位置;3.當(dāng)所有螞蟻跑完一輪(所有城市跑完一次),更新信息素濃度(與螞蟻跑過(guò)的路徑和路過(guò)的螞蟻的數(shù)目有關(guān),并且隨時(shí)間減少);3.重復(fù)至收斂 | 1.隨機(jī)放置粒子,設(shè)置其初始速度;2.計(jì)算各粒子的f(xi)(f(x)是目標(biāo)函數(shù)值),記錄其當(dāng)前最優(yōu)g*及各個(gè)粒子歷史最右xi*;3.依據(jù)xi*和g*和當(dāng)前速度改變速度,移動(dòng)到下一位置;4.重復(fù)23至收斂 |
| 適用范圍 | 離散問(wèn)題 | 連續(xù)問(wèn)題 |
| 更新 | 一輪一更新(batch) | 一步一計(jì)算(隨機(jī)) |
| 優(yōu)點(diǎn) | 易于實(shí)現(xiàn); 可調(diào)參數(shù)較少; 所需種群或微粒群規(guī)模較小;計(jì)算效率高,收斂速度快。 | |
| 缺點(diǎn) | 收斂速度慢(找最優(yōu)解的情況下);易于陷入局部最優(yōu);對(duì)于解空間為連續(xù)的優(yōu)化問(wèn)題不適用 | 和其它演化計(jì)算算法類似,不保證收斂到全局最優(yōu)解 |
| 協(xié)同合作,不好的向好的學(xué)習(xí) | 適者生存,不好的淘汰掉 |
| 最好的個(gè)體通過(guò)吸引其他個(gè)體向他靠近來(lái)施加影響 | 最好的個(gè)體產(chǎn)生后代來(lái)傳播基因 |
| 除了速度位置外,還有過(guò)去的歷史信息 | 只與上一代有關(guān),與歷史無(wú)關(guān),markov鏈的過(guò)程 |
8. 博弈
- 雙方估價(jià)之差
- 成本100,標(biāo)價(jià)200,買方估價(jià)160,賣方估價(jià)120
- 議價(jià)范圍:120~160
- 均衡結(jié)局:全部滿足均衡議價(jià)解的結(jié)局
- 雙方備胎x,y,x+y<=1才能議價(jià)
- 議價(jià)空間s=1-x-y
- A=x+s/2
- B=y+s/2
- A-B-C-D
- 均衡結(jié)局:A=1/3=D,B=C=2/3
- 穩(wěn)定結(jié)局:未配對(duì)的邊兩節(jié)點(diǎn)的效用和<1
- 帕累托最優(yōu)
- 以意大利經(jīng)濟(jì)學(xué)家維爾弗雷多·帕累托的名字命名
- 對(duì)于一組策略選擇(局勢(shì)),若不存在其他策略選擇使所有參與者得到至少和目前一樣高的回報(bào),且至少一個(gè)參與者會(huì)得到嚴(yán)格較高的回報(bào),則這組策略選擇為帕累托最優(yōu)
- 社會(huì)最優(yōu)
- 使參與者的回報(bào)之和最大的策略選擇(局勢(shì))
- 社會(huì)最優(yōu)的結(jié)果一定也是帕累托最優(yōu)的結(jié)果
- 帕累托最優(yōu)不一定是社會(huì)最優(yōu)
- 社會(huì):是所有局中人構(gòu)成的社會(huì)
- minmax:最小化對(duì)手最好情況下的收益—對(duì)象時(shí)對(duì)方的效用
- 用于零和博弈
- maxmin:最大化自己最壞情況下的收益–對(duì)象是自己的效用
- 零和博弈下:二者等價(jià)
- 每個(gè)人的策略都是當(dāng)前策略的最佳應(yīng)對(duì)
- 混合:讓對(duì)手各個(gè)情況下的收益都一樣。
- 純:誰(shuí)動(dòng)誰(shuí)輸
- 市場(chǎng)結(jié)清價(jià)格
- 完全匹配是否存在可以通過(guò)尋找受限集來(lái)判斷
- 價(jià)格能夠引導(dǎo)市場(chǎng)優(yōu)化配置
- 市場(chǎng)結(jié)清價(jià)格總是存在
- 市場(chǎng)結(jié)清價(jià)格使得買賣雙方總效用最優(yōu)
| 公式 | argmaxsimins?iui(si,s?i)argmax_{s_i}min_{s_{-i}}u_i(s_i,s_{-i})argmaxsi??mins?i??ui?(si?,s?i?) | argminsimaxsjuj(si,sj)argmin_{s_i}max_{s_{j}}u_j(s_i,s_{j})argminsi??maxsj??uj?(si?,sj?) | a的分布不變情況下,使得b的各種策略的期望都一樣 |
| 目的 | 損失最小化,預(yù)防對(duì)手不理性情況 | 把對(duì)手弄趴下,自己就贏了 | 自己的策略讓對(duì)手無(wú)路可走(走哪里都一樣) |
| 用于 | 多人博弈 | 零和博弈 | - |
| 特點(diǎn) | 穩(wěn)妥,以我為主 | 抑制對(duì)手 | 抑制對(duì)手 |
田忌賽馬
剪刀石頭布
- 剪刀石頭布
- 局中人
- 兩個(gè)玩家
- 策略
- 剪刀、石頭、布
- 效用函數(shù)矩陣
- 不存在純策略的納什均衡
- 在任何情況下,對(duì)方都能找到更好的策略
- 混合策略下的納什均衡
- 混合策略
- 玩家一的策略選擇分布記為𝑝 ={ 𝑝1, 𝑝2, 1 ? 𝑝1 ? 𝑝2 },玩家二的策略選擇分布記為𝑞 = 𝑞1, 𝑞2, 1 ? 𝑞1 ? 𝑞2
- 假設(shè)玩家一的策略分布不變,玩家二策略選擇的效用為
- 剪刀:0 ? 𝑝1 + ?1 ? 𝑝2 + 1 ?( 1 ? 𝑝1 ? 𝑝2) = 1 ? 𝑝1 ? 2𝑝2 —2的得分,1的概率—2的期望
- 石頭:1 ? 𝑝1 + 0 ? 𝑝2 + ?1 ? ( 1 ? 𝑝1 ? 𝑝2) = 2𝑝1 + 𝑝2 ? 1
- 布: ?1 ? 𝑝1 + 1 ? 𝑝2 + 0 ? ( 1 ? 𝑝1 ? 𝑝2) = 𝑝2 ? 𝑝1
- 令玩家二的各個(gè)策略的效用相等,得到𝑝1 = 𝑝2 = 1/3
- 同理可得𝑞1 = 𝑞2 = 1/3
- 剪刀-石頭-布的混合納什均衡態(tài)
- 每個(gè)玩家各以1/3的概率
- 選擇剪刀、石頭和布
- 期望收益均為0
- 混合策略
- 局中人
| 剪刀 | 0,0 | -1,1 | 1,-1 |
| 石頭 | 1,-1 | 0,0 | -1,1 |
| 布 | -1,1 | 1,-1 | 0,0 |
性別之戰(zhàn)
- 性別之戰(zhàn)
- 局中人
- 夫妻雙方
- 策略
- 看韓劇、看體育
- 效用函數(shù)矩陣
- 納什均衡1:雙方都同意看韓劇
- 妻子保持策略不變(看韓劇),丈夫如果改變策略(看體育),其效用會(huì)降低(從1變成0)
- 丈夫保持策略不變(看韓劇),妻子如果改變策略(看體育),其效用會(huì)降低(從2變成0)
- 納什均衡2:雙方都同意看體育
- maxmin策略:(以我為主)
- 妻子:p選擇韓劇,1-p選擇體育
- 丈夫:q選擇韓劇,1-q選擇體育
- 妻子的期望:uw(p,q)=2pq+(1?p)(1?q)=3pq?p?q+1u_w(p,q)=2pq+(1-p)(1-q)=3pq-p-q+1uw?(p,q)=2pq+(1?p)(1?q)=3pq?p?q+1
- 先min :minq(3pq?p?q+1)min_q(3pq-p-q+1)minq?(3pq?p?q+1)
- 求導(dǎo),uw(p,q)u_w(p,q)uw?(p,q)單調(diào)(不知遞增遞減)—極值點(diǎn)為q=0或1
- 帶入q:minquw(p,q)=min(1?p,2p)??這個(gè)可以畫出折線圖,找圖中最大的點(diǎn)min_q u_w(p,q)=min(1-p,2p)--這個(gè)可以畫出折線圖,找圖中最大的點(diǎn)minq?uw?(p,q)=min(1?p,2p)??這個(gè)可以畫出折線圖,找圖中最大的點(diǎn)
- 再max:找min(1?p,2p)min(1-p,2p)min(1?p,2p)的最大點(diǎn)–p=1/3
- 所以
- 妻子:1/3選擇韓劇,2/3選擇體育
- 丈夫:2/3選擇韓劇,1/3選擇體育
- –考慮到對(duì)方是最穩(wěn)妥的策略
- minmax策略:(抑制對(duì)手,此種錯(cuò)誤,因?yàn)樾詣e之戰(zhàn)不是零和博弈)
- 妻子:p選擇韓劇,1-p選擇體育
- 丈夫:q選擇韓劇,1-q選擇體育
- 丈夫的期望:uf(p,q)=pq+2(1?p)(1?q)=3pq?2p?2q+2u_f(p,q)=pq+2(1-p)(1-q)=3pq-2p-2q+2uf?(p,q)=pq+2(1?p)(1?q)=3pq?2p?2q+2
- 先minmaxq(3pq?2p?2q+2)max_q(3pq-2p-2q+2)maxq?(3pq?2p?2q+2)
- 求導(dǎo),uf(p,q)u_f(p,q)uf?(p,q)單調(diào)(不知遞增遞減)—極值點(diǎn)為q=0或1
- 帶入q:maxquf(p,q)=max(2?2p,p)??這個(gè)可以畫出折線圖,找圖中最大的點(diǎn)max_q u_f(p,q)=max(2-2p,p)--這個(gè)可以畫出折線圖,找圖中最大的點(diǎn)maxq?uf?(p,q)=max(2?2p,p)??這個(gè)可以畫出折線圖,找圖中最大的點(diǎn)
- 再max:找max(2?2p,p)max(2-2p,p)max(2?2p,p)的最大點(diǎn)–p=2/3
- 所以
- 妻子:2/3選擇韓劇,1/3選擇體育
- 丈夫:1/3選擇韓劇,2/3選擇體育
- –考慮到對(duì)方是最穩(wěn)妥的策略
- 混合納什均衡策略(抑制對(duì)手)
- 妻子:p選擇韓劇,1-p選擇體育
- 丈夫:q選擇韓劇,1-q選擇體育
- 假設(shè)妻子策略分布不變,丈夫的期望為
- 丈夫看韓劇:p
- 丈夫看體育:2(1-p)
- 令相同p=2(1-p)==>p=2/3
- 所以
- 妻子:2/3選擇韓劇,1/3選擇體育
- 丈夫:1/3選擇韓劇,2/3選擇體育
- 局中人
拍賣
- 經(jīng)濟(jì)市場(chǎng)
- 解決稀有資源的分配問(wèn)題
- 一般市場(chǎng)
- 多個(gè)賣家、多個(gè)買家
- 討價(jià)(Bargaining)
- 多個(gè)賣家、一個(gè)買家
- 拍賣(Auction)
- 一個(gè)賣家、多個(gè)買家
- 拍賣活動(dòng)
- 買家之間的博弈
- 一個(gè)賣家向一群買家拍賣一件商品的活動(dòng)
- 拍賣的基本假設(shè)
- 每個(gè)競(jìng)爭(zhēng)者對(duì)被拍賣的商品有各自的估值
- 這個(gè)估值是競(jìng)拍者對(duì)商品實(shí)際所值的估計(jì)
- 如果商品售價(jià)<=這個(gè)估值,競(jìng)拍者會(huì)購(gòu)買,否則不會(huì)購(gòu)買
- –>因?yàn)槔硇宰运饺?/li>
- 每個(gè)競(jìng)爭(zhēng)者對(duì)被拍賣的商品有各自的估值
- 拍賣類型
- 拍賣類型
- 增價(jià)拍賣,又稱英式拍賣
- 拍賣者逐漸提高售價(jià),競(jìng)拍者不斷退出,直到只剩一位競(jìng)拍者,該競(jìng)拍者以最后的報(bào)價(jià)贏得商品
- 減價(jià)拍賣,又稱荷式拍賣
- 拍賣者逐漸降低售價(jià),直到有競(jìng)拍者出價(jià)購(gòu)買
- 首價(jià)密封報(bào)價(jià)拍賣
- 競(jìng)拍者同時(shí)向拍賣者提交密封報(bào)價(jià),拍賣者同時(shí)打開這些報(bào)價(jià),出價(jià)最高的競(jìng)拍者以其出價(jià)購(gòu)買該商品
- 納什均衡:每個(gè)競(jìng)拍者的價(jià)格低于估價(jià)
- 共有𝑛個(gè)競(jìng)拍者,競(jìng)拍者𝑖的估價(jià)記為𝑣𝑖,報(bào)價(jià)記為𝑏𝑖,其他競(jìng)拍者的估價(jià)服從[𝑎, 𝑏]區(qū)間上的均勻分布,且誠(chéng)實(shí)出價(jià)
- 𝑏𝑖 < 𝑎時(shí),競(jìng)標(biāo)失敗,收益為0
- 競(jìng)拍者i獲勝的概率(bi?ab?a)n?1\left( \frac{b_i-a}{b-a} \right)^{n-1}(b?abi??a?)n?1
- 競(jìng)拍者的期望收益f(bi)=(vi?bi)(bi?ab?a)n?1f(b_i)=(v_i-b_i)\left( \frac{b_i-a}{b-a} \right)^{n-1}f(bi?)=(vi??bi?)(b?abi??a?)n?1
- 求導(dǎo)得到最優(yōu)解f′(bi)=?(bi?ab?a)n?1+(n?1)(vi?bi)(bi?ab?a)n?21b?a=(bi?ab?a)n?2(?nbi+a+(n?1)vib?a)f'(b_i)\\=-\left( \frac{b_i-a}{b-a} \right)^{n-1}+(n-1)(v_i-b_i)\left( \frac{b_i-a}{b-a} \right)^{n-2}\frac{1}{b-a}\\=\left( \frac{b_i-a}{b-a} \right)^{n-2}\left(\frac{-nb_i+a+(n-1)v_i}{b-a}\right)f′(bi?)=?(b?abi??a?)n?1+(n?1)(vi??bi?)(b?abi??a?)n?2b?a1?=(b?abi??a?)n?2(b?a?nbi?+a+(n?1)vi??)
- 最優(yōu)報(bào)價(jià)為bi?=a+(n?1)vin<vib_i^*=\frac{a+(n-1)v_i}{n}<v_ibi??=na+(n?1)vi??<vi?
- 競(jìng)拍者越多越接近于估價(jià)
- 次價(jià)密封報(bào)價(jià)拍賣
- 競(jìng)拍者同時(shí)向拍賣者提交密封報(bào)價(jià),出價(jià)最高的競(jìng)拍者贏得商品但以第二高出價(jià)購(gòu)買該商品
- 納什均衡:每個(gè)競(jìng)拍者的價(jià)格等于估價(jià)
- 給定一個(gè)競(jìng)拍者,其估價(jià)記為𝑣,報(bào)價(jià)記為𝑏,其他競(jìng)拍者的最高報(bào)價(jià)記為𝑏?
- 理性行為假設(shè)下,報(bào)價(jià)不會(huì)高于估價(jià),即𝑏 ≤ 𝑣
- 此時(shí),根據(jù)𝑏?的取值有三種情形
- 𝑏? > 𝑣:收益為0;—沒拍到
- 將報(bào)價(jià)從𝑏提高到𝑣,收益不變
- 𝑏? < 𝑏:收益為𝑣 ? 𝑏? ;
- 將報(bào)價(jià)從𝑏提高到𝑣 ,收益不變
- 𝑏 ≤ 𝑏? ≤ 𝑣:收益為0;—沒拍到
- 將報(bào)價(jià)從𝑏提高到𝑣 ,收益變?yōu)?#x1d463; ? b*–提高后拍到了
- 𝑏? > 𝑣:收益為0;—沒拍到
- 雙方出價(jià)
- 股票市場(chǎng)
- 增價(jià)拍賣,又稱英式拍賣
討價(jià)
- 討價(jià)
- 賣家和買家之間的博弈
- 討價(jià)的對(duì)象:是雙方對(duì)商品估價(jià)之差
- 假設(shè)所有因素都已經(jīng)體現(xiàn)在估價(jià)中
- 時(shí)間、情感、眼緣等
- 例子:
- 衣服進(jìn)價(jià)80,標(biāo)價(jià)200
- 賣家對(duì)衣服的估價(jià)在80和200之間,譬如120
- 買家的估價(jià)假如為160
- 討價(jià)的對(duì)象:是雙方的估價(jià)之差,即160-120=40
- 后續(xù)的討論中,將討價(jià)對(duì)象視為整體1
- 賣家的估價(jià)為0,買家的估價(jià)為1
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-ZYtdgebF-1578389328371)(attachment:image.png)]
A-賣家
B-買家
- 賣家的估價(jià)為0,買家的估價(jià)為1
討價(jià)的情形
- 場(chǎng)景1-一口價(jià)
- Take-it-or-leave-it:無(wú)商談?dòng)嗟?/li>
- 一方報(bào)價(jià),另一方要么接受報(bào)價(jià)達(dá)成交易,要么交易失敗
- 兩個(gè)人商量吃蛋糕,一方提出切分比例,另一方如果不同意,雙方就都不吃
- 美國(guó)參議院:民主黨提出增加財(cái)政預(yù)算到某個(gè)值,共和黨要么同意,要么拒絕(但不能提新的方案)
- 通過(guò)**回滾(rollback)**求解納什均衡
- Take-it-or-leave-it
- 過(guò)程
- 階段1:甲方提出,按照1-p和p的比例進(jìn)行分配
- 階段2:只要p大于0,乙方則會(huì)接受p
- 甲方(分配方案提出者)得到幾乎所有收益
- 過(guò)程
- Take-it-or-counteroffer:要么接受,要么還價(jià)
- 過(guò)程
- 第一階段:甲方報(bào)價(jià):1-p, p
- 第二階段:乙方要么接受報(bào)價(jià),要么還價(jià)𝛿 ? (1 ? 𝑞),𝛿 ? 𝑞
- 第三階段:甲方?jīng)Q定要么接受乙方的還價(jià),要么交易失敗
- 約束條件
- 時(shí)間成本:𝛿刻畫可用于分配的總收益隨時(shí)間衰減(0 ≤ 𝛿 ≤ 1)
- 用來(lái)防止甲方不要欺負(fù)乙方–不然兩人的收益都會(huì)變少
- 例子:NBA勞工談判,分配一個(gè)會(huì)融化的蛋糕
- 時(shí)間成本:𝛿刻畫可用于分配的總收益隨時(shí)間衰減(0 ≤ 𝛿 ≤ 1)
- 過(guò)程
- Take-it-or-counteroffer過(guò)程推演
- 第一階段之后等同于take-it-or-leave-it討價(jià)
- 假如第一階段乙方?jīng)]有接受甲方的報(bào)價(jià),那么在接下的take-it-or-leave-it過(guò)程中,甲方的收益將趨近于0
- 因此,甲方在第一階段報(bào)價(jià)時(shí),分配給乙方的收益不少于乙方拒絕報(bào)價(jià)后所得到的收益
- p≥δ?(1?q)≈δp\geq \delta*(1-q) \approx \deltap≥δ?(1?q)≈δ
- p:第一輪甲方報(bào)價(jià)中,乙方的收益;p:第一輪甲方報(bào)價(jià)中,乙方的收益;p:第一輪甲方報(bào)價(jià)中,乙方的收益;
- δ:甲方拒絕后,乙方報(bào)價(jià)時(shí)可以得到的收益\delta:甲方拒絕后,乙方報(bào)價(jià)時(shí)可以得到的收益δ:甲方拒絕后,乙方報(bào)價(jià)時(shí)可以得到的收益
- p≥δ?(1?q)≈δp\geq \delta*(1-q) \approx \deltap≥δ?(1?q)≈δ
- 啟示
- 在時(shí)間成本約束下,甲乙雙方盡可能會(huì)在第一輪達(dá)成交易,使雙方收益最大
- 甲的報(bào)價(jià),要根據(jù)時(shí)間成本決定
- 乙的收益依賴于對(duì)時(shí)間成本的容忍度
- 最終的分配比例是:
- 甲方:1?δ1-\delta1?δ;
- 乙方δ\deltaδ
- 蛋糕融化的越慢,乙方收益越大
- 先發(fā)優(yōu)勢(shì),還是后發(fā)制人?
- 當(dāng)時(shí)間成本較高(即𝛿較小)時(shí),甲方有先發(fā)優(yōu)勢(shì)
- 例如:炎熱的夏天,蛋糕融化得快
- 當(dāng)時(shí)間成本較低(即𝛿較大)時(shí),乙方可后發(fā)制人
- 例如:寒冷的冬天,蛋糕融化得慢
- 當(dāng)時(shí)間成本較高(即𝛿較小)時(shí),甲方有先發(fā)優(yōu)勢(shì)
- 啟示:博弈規(guī)則決定最終的結(jié)果
打官司
-
打官司
- 原告訴訟被告,要求賠償100萬(wàn)
- 訴訟費(fèi)原告和被告各支付10萬(wàn)
- 情形1
- 雙方各自認(rèn)為自己勝訴的概率為1/2
- 開啟訴訟E=1/2100+1/20=50
- 原告收益:50萬(wàn)-10萬(wàn)=40萬(wàn);
- 被告收益:-50萬(wàn)-10萬(wàn)=-60萬(wàn)
- 可以達(dá)成庭外和解:譬如被告支付50萬(wàn)給原告
- 原告能接受的最低價(jià)是:40萬(wàn)
- 被告能提供的最高價(jià)是:60萬(wàn)
- 討價(jià)分配的“蛋糕”大小為20萬(wàn)
- 情形2
- 雙方各自認(rèn)為自己勝訴的概率為3/4
- 開啟訴訟
- 原告預(yù)期收益:75萬(wàn)-10萬(wàn)=65萬(wàn);
- 被告預(yù)期收益:-25萬(wàn)-10萬(wàn)=-35萬(wàn)
- 無(wú)法達(dá)成和解——沒有交集
- 原告能接受的最低價(jià)是:65萬(wàn)
- 被告能提供的最高價(jià)是:35萬(wàn)
- 討價(jià)分配的蛋糕大小是:-30萬(wàn)
- 假如訴訟費(fèi)是30萬(wàn)呢?
- 75-30=45
- -25-30=-45
- 可以和解–45萬(wàn)
- 定價(jià)決定一切–規(guī)則決定
- 原告訴訟被告,要求賠償100萬(wàn)
-
博弈規(guī)則決定博弈結(jié)果
-
各自的“底牌”是對(duì)方報(bào)價(jià)的依據(jù)
-
討價(jià)的蛋糕大小由雙方的底牌決定
海盜分金幣
-
傳說(shuō),從前有五個(gè)海盜搶得了100枚金幣.他們通過(guò)了一個(gè)如何確定選用誰(shuí)的分配方案的安排.即:
- 抽簽決定各人的號(hào)碼(1,2,3,4,5);
- 先由1號(hào)提出分配方案,然后5個(gè)人表決.當(dāng)且僅當(dāng)超過(guò)半數(shù)人同意時(shí),方案才算被通過(guò),否則他將被扔入大海喂鯊魚;
- 當(dāng)1號(hào)死后,再由2號(hào)提方案,4個(gè)人表決,當(dāng)且僅當(dāng)超過(guò)半數(shù)同意時(shí),方案才算通過(guò),否則2號(hào)同樣將被扔入大海喂鯊魚;
- 往下依次類推……
-
根據(jù)上面的這個(gè)故事,現(xiàn)在提出如下的一個(gè)問(wèn)題.即:
- 我們假定每個(gè)海盜都是很聰明的人,并且都能夠很理智地判斷自己的得失,從而做出最佳的選擇,那么第一個(gè)海盜應(yīng)當(dāng)提出怎樣的分配方案才能夠使自己不被扔入大海喂鯊魚,而且收益還能達(dá)到最大化呢?
-
Solution:
-
倒推,從后往前推,人數(shù)依次增加
- 對(duì)于4號(hào)來(lái)說(shuō):如果1-3號(hào)強(qiáng)盜都喂了鯊魚,只剩4號(hào)和5號(hào)的話。(100,0)
- 對(duì)于3號(hào)來(lái)說(shuō):3號(hào)知道這一點(diǎn),就會(huì)提(99,0,1)的分配方案,因?yàn)樗?號(hào)一無(wú)所獲但還是會(huì)投贊成票,再加上自己一票,他的方案即可通過(guò)。
- 對(duì)于2號(hào)來(lái)說(shuō):2號(hào)推知到3號(hào)的方案,就會(huì)提出(99,0,1,0)的方案,即放棄3號(hào),而給予4號(hào)和5號(hào)各一枚金幣。由于該方案對(duì)于4號(hào)和5號(hào)來(lái)說(shuō)比在3號(hào)分配時(shí)更為有利,他們將支持他而不希望他出局而由3號(hào)來(lái)分配。這樣,2號(hào)將拿走98枚金幣。
- 對(duì)于1號(hào)來(lái)說(shuō):2號(hào)的方案會(huì)被1號(hào)所洞悉,1號(hào)并將提出(98,0,1,0,1)的方案,即放棄2號(hào),而給3號(hào)一枚金幣,同時(shí)給5號(hào)1。由于1號(hào)的這一方案對(duì)于3號(hào)和4號(hào)(或5號(hào))來(lái)說(shuō),相比2號(hào)分配時(shí)更優(yōu),他們將投1號(hào)的贊成票,再加上1號(hào)自己的票,1號(hào)的方案可獲通過(guò),97枚金幣可輕松落入囊中。這無(wú)疑是1號(hào)能夠獲取最大收益的方案了!
-
總結(jié):我們對(duì)這種問(wèn)題要從后向前推,因?yàn)槲覀冃枰篮竺娴臅?huì)根據(jù)什么樣的情況做出什么樣的決定的時(shí)候,我們才可以做出對(duì)自己最有利的決定(因?yàn)樽约旱臎Q定使一定數(shù)量的海盜得到的比自己死去之后得到的要多),讓后面的能支持自己。
-
只要比下一個(gè)結(jié)果好就行
匹配問(wèn)題分宿舍
中介
- 納什均衡狀態(tài)–中介之間的博弈
- 壟斷
- T1–S1/B1
- T2–S3/B3
- 充分競(jìng)爭(zhēng)
- T1、T2在S2/B2中充分競(jìng)爭(zhēng)(報(bào)價(jià)一致了
- 不掙錢
- x=依據(jù)市場(chǎng)競(jìng)爭(zhēng)程度,可能很高也可能很低
總結(jié)
以上是生活随笔為你收集整理的国科大高级人工智能-总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: day32 并发编程之锁
- 下一篇: 栈与递归