當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

国科大高级人工智能-总结

發(fā)布時(shí)間：2024/7/5 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了国科大高级人工智能-总结小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

1.概論
2. 搜索
- A\*最優(yōu)性
- 三個(gè)傳教士與野人
3.神經(jīng)網(wǎng)絡(luò)
- RBM DBN DBM hopfield比較
- 結(jié)構(gòu)及特性
- 逐層貪婪訓(xùn)練與CD
- BP
- GAN
4.邏輯
- 一個(gè)永遠(yuǎn)無(wú)法歸結(jié)結(jié)束的FOL
- 合取范式規(guī)范化
- 歸結(jié)原理
- 4.1resolution是完備的、可靠的
- Modus ponens
- 4.1 蘊(yùn)含與包含的證明
- 蘊(yùn)含與implication的關(guān)系
5. 模糊數(shù)學(xué)和遺傳算法
6. 強(qiáng)化學(xué)習(xí)
7. 群體智能
8. 博弈
- 田忌賽馬
剪刀石頭布
- 性別之戰(zhàn)
- 拍賣
- 討價(jià)
- - 討價(jià)的情形
- 打官司
- 海盜分金幣
- 匹配問(wèn)題分宿舍
- 中介

1.概論

圖靈測(cè)試：表明其智能水平從表現(xiàn)來(lái)看，難以和人區(qū)分開來(lái)

三個(gè)學(xué)派：

符號(hào)學(xué)派
聯(lián)結(jié)學(xué)派
行為學(xué)派

2. 搜索

廣度優(yōu)先搜索是代價(jià)一致搜索的特例（無(wú)權(quán)的）

UCS是A*的特例

A*=UCS+貪婪搜索
UCS:看已經(jīng)花費(fèi)的
貪婪搜索：啟發(fā)搜索，看未來(lái)（TSP-距離目標(biāo)的直線距離）
A*:過(guò)去未來(lái)都看

貪婪最佳優(yōu)先搜索：是不完備的

爬山法：可以任意位置起始，移動(dòng)到最好的相鄰狀態(tài)。

最優(yōu)條件：

A*樹搜索：h(n)可采納
- h(n)<=h*(n)
A*圖搜索：h(n)是一致的
- h(A)-h?<=cost(A to C)
- h(A)>h?–遞減
- f(A)<f?(連續(xù)性？）

避免重復(fù)狀態(tài)

如果算法不檢測(cè)重復(fù)狀態(tài)，線性問(wèn)題會(huì)變成指數(shù)問(wèn)題

算法名稱算法策略時(shí)間復(fù)雜度空間復(fù)雜度完備性最優(yōu)性存儲(chǔ)

DFS(深度優(yōu)先）	深度優(yōu)先（從左往右，得到最左結(jié)果，	$O(b^m)$	$O (b m)$	（不完備）有限就有解	無(wú)	堆棧
Depth-limited(深度優(yōu)先）	深度優(yōu)先,限制最長(zhǎng)搜索深度，超過(guò)就換一條	$O(b^l)$	$O (b l)$	（不完備）m有限就有解	無(wú)	堆棧
Iterative-Depth(深度優(yōu)先）	逐層限制深度，使用DFS（DFS的空間+BFS的最優(yōu))	$O(b^d)$	$O (b d)$	有解，s必然有限	無(wú)	堆棧
BFS	寬度優(yōu)先，會(huì)得到最淺層的解	$O(b^d)$	$O(b^d)$	有解，s必然有限（完備)	最優(yōu)（無(wú)權(quán)時(shí)才最優(yōu)	隊(duì)列
UCS(代價(jià)一致搜索	優(yōu)先隊(duì)列BFS，考慮當(dāng)前代價(jià)（優(yōu)先級(jí)）,BFS是UCS的特例，g(x)	$O(b[C?/?])O(b^[C^*/\epsilon])$	$O(b[C?/?])O(b^[C^*/\epsilon])$	完備	最優(yōu)	優(yōu)先隊(duì)列
啟發(fā)式搜索	使用額外信息（如到終點(diǎn)的長(zhǎng)度）–啟發(fā)函數(shù)h(x)	-	-	-	-	-
貪婪搜索	h(x)最好的先擴(kuò)展	快速，最壞同DFS(全樹擴(kuò)展）	-	（完備）	最大問(wèn)題在于往往找不到最優(yōu)解	優(yōu)先隊(duì)列
A*	UCS+貪婪,優(yōu)先級(jí)用f(x)=g(x)+h(x),目標(biāo)出列時(shí)才停止	指數(shù)	指數(shù)	（完備）	實(shí)際h>估計(jì)h，且目標(biāo)出列時(shí)結(jié)束的情況，最優(yōu)（往好了估計(jì)）	花費(fèi)的話小的優(yōu)先隊(duì)列
A*圖搜索	去除樹中重復(fù)節(jié)點(diǎn)(一個(gè)狀態(tài)則不擴(kuò)展）（保證h(A)<=實(shí)際，且h(A)-h?<=弧cost(一致性）	指數(shù)	指數(shù)	（不完備）完備(樹有的狀態(tài)他都有）	弧一致時(shí)最優(yōu)	優(yōu)先隊(duì)列

算法名稱方向最優(yōu)

貪婪	快速地向目標(biāo)方向擴(kuò)展，	不一定能夠得到最優(yōu)解
UCS	所有方向等可能擴(kuò)展	能夠得到最優(yōu)解
A*	朝著最優(yōu)解方向擴(kuò)展	能夠得到最優(yōu)解

算法名稱算法策略時(shí)間復(fù)雜度空間復(fù)雜度完備性最優(yōu)性

爬山法（如SGD)	1.任意位置起始，2.移動(dòng)到最好的相鄰位置，3.無(wú)最好則結(jié)束	-	-	（不完備）	無(wú)
模擬退火（從爬山法改進(jìn)）	1.任意位置起始，2.移動(dòng)到最好的相鄰位置，3.不好的狀態(tài)則以 $eΔE/Te^{\Delta E/T}$ 概率接受	-	-	（不完備）	下降夠慢，則最優(yōu)
遺傳算法	1.選最好的N個(gè)（基于適應(yīng)度函數(shù)），2.這幾個(gè)配對(duì)，并雜交，3.隨機(jī)變異各串中的一個(gè)，重復(fù)	-	-	（不完備）	？

A*最優(yōu)性

證明A*樹搜索最優(yōu)（使用了可采納啟發(fā)）
- B-次優(yōu)，A-最優(yōu)，h-可采納的，證明A在B前離開邊緣集合（出隊(duì)列)
  - 假設(shè)B和A的祖先n在邊緣集合上
  - 那么，n會(huì)在B之前被擴(kuò)展
  - f(n)<=f(A)(因?yàn)檫€未到達(dá)終點(diǎn)，f(A)=g(A)就是實(shí)際全程耗散）
  - f(A)<f(B)(g(A)<g(B),且h(A)=h(B)=0到達(dá)終點(diǎn)了）
  - 所以，n先擴(kuò)展
  - 所以A的所有祖先都在B之前擴(kuò)展
  - A在B之前擴(kuò)展
  - 所以，A*最優(yōu)
A*圖搜索最優(yōu)？
- 前提：一致性–就是可采納性
  - h(A)<=實(shí)際，
  - 且h(A)-h?<=弧cost(一致性）
- 采用一致的h（啟發(fā)函數(shù)，所以
- f單調(diào)遞增
- 對(duì)每個(gè)狀態(tài)s，到達(dá)s最優(yōu)的節(jié)點(diǎn)，優(yōu)于次優(yōu)
- 所以是最優(yōu)的
- 證明
  - 假定到達(dá)G*(最優(yōu)值)的路徑上某個(gè)n不能進(jìn)入隊(duì)列，因?yàn)槟硞€(gè)具有相同狀態(tài)且較差的n’先被擴(kuò)展了
  - 找到樹中最高的這個(gè)節(jié)點(diǎn)n
  - p是n的祖先，且n’出列時(shí)在隊(duì)列里
  - f§<f(n)(遞增
  - f(n)<f(n’)次優(yōu)
  - p應(yīng)該在n’之前被擴(kuò)展
  - 矛盾
  - 得證先到達(dá)G*

三個(gè)傳教士與野人

M-左岸傳教士數(shù)目
C-左岸野人數(shù)目
B-左岸是否有船
Pcm-有c個(gè)傳教士，m個(gè)野人從左岸到右岸
Qcm-有c個(gè)傳教士，m個(gè)野人從右岸到左岸
問(wèn)題有解所必須的特性
- M>=C且（3-M)>=(3-C)<==>M=C
- 或者M(jìn)=0,M=3
安全狀態(tài)(以左岸為例)：
傳教士與野人的數(shù)目相等；
傳教士都在左岸；
傳教士都不在左岸。
完全狀態(tài)圖：不滿足約束的不在圖內(nèi)）

3.神經(jīng)網(wǎng)絡(luò)

DBN(深度置信網(wǎng)絡(luò)）網(wǎng)絡(luò)結(jié)構(gòu)由多個(gè)RBM層疊而成

CNN的特點(diǎn)

局部連接
參數(shù)共享
子采樣

決策樹

信息熵
- 系統(tǒng)不確定性的度量
- 系統(tǒng)永久恒定在某一狀態(tài)后，該系統(tǒng)的信息熵最小
- 除了香農(nóng)熵，有多種定義方式
- $Ent(D)=?Σk=1∣y∣pklogpkEnt(D)=-\Sigma_{k=1}^{|y|} p_klogp_k$
  - 純度越高，值越小
信息增益
- 決策樹劃分節(jié)點(diǎn)依據(jù)信息增益來(lái)
- $Gain(D,a)=Ent(D)?Σv=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\Sigma_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)$
- 選擇增益大的劃分
條件熵
- $是條件熵Σv=1V∣Dv∣∣D∣Ent(Dv)是條件熵\Sigma_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)$
- 信息增益應(yīng)該是使得條件熵變小
- –>決策樹讓條件熵變小

感知機(jī)不可解決異或問(wèn)題

因?yàn)楦兄獧C(jī)只在線性可分問(wèn)題下收斂（有限步內(nèi)收斂）
- 感知機(jī)收斂定理：線性可分則收斂
  - w、x是增廣得到的
  - 若數(shù)據(jù)集可分，
    - 存在 $w?(∣∣w?∣∣=1),γ>0,使得ytw?xt≥γw^*(||w^*||=1),\gamma>0,使得y_tw^*x_t\geq \gamma$
  - 令最終分離超平面參數(shù)為 $w^*(||w^*||=1)$
    - $wkw?=(wk?1+xtyt)w?≥wk?1w?+γ≥...≥kγw_kw^*=(w_{k-1}+x_ty_t)w^* \geq w_{k-1}w^* + \gamma \geq ...\geq k\gamma$
    - $w_k||^2=||w_{k+1}+x_ty_t||^2=||w_{k-1}||^2+2w_{k-1}^Tx_ty_t+||x_t||^2$ ——yt=1
    - $≤∣∣wk?1∣∣2+∣∣xt∣∣2≤∣∣wk?1∣∣2+R2≤...≤kR2\leq ||w_{k-1}||^2+||x_t||^2\leq ||w_{k-1}||^2+R^2 \leq ...\leq kR^2$
    - 所以 $kγ≤wkw?≤∣∣wk∣∣∣∣w?∣∣≤kRk\gamma \leq w_kw^* \leq ||w_k||||w^*|| \leq \sqrt{k} R$
    - $k≤R2γ2k\leq \frac{R^2}{\gamma^2}$
  - 以超平面來(lái)劃分兩類樣本
感知機(jī)學(xué)習(xí)是在假設(shè)空間中選取使得損失函數(shù)最小的參數(shù)模型
- 訓(xùn)練 $w = w + / ? x, 小了就調(diào) 大一點(diǎn) ，大了就調(diào) 小一點(diǎn) ，一個(gè) x 調(diào) 整一次$
感知機(jī)存在的問(wèn)題
- 噪聲（線性不可分）
- 泛化性
異或問(wèn)題是非線性問(wèn)題（帶進(jìn)去看一下）
- 證明
  - 假設(shè)可以解，y=ω1x1+ω2x2+θ則ω1、?ω2?和θ?必須滿足如下方程組：
  - ω1 + ω2 - θ ＜ 0–（1,1,）–0
    - θ > ω1 + ω2
  - ω1 + 0 - θ ≥ 0
    - 0 ≥ θ - ω1
  - 0 + 0 - θ ＜ 0
    - θ > 0
  - 0 + ω2 - θ ≥ 0
    - 0 ≥ θ - ω2
  - 顯然，該方程組是矛盾的，無(wú)解！這就說(shuō)明單層感知器是無(wú)法解決異或問(wèn)題的。

BP遇到的困難，為什么會(huì)出現(xiàn)梯度消失

困難：
- 梯度消失，梯度爆炸
- 局部極小
- 只能用于標(biāo)注數(shù)據(jù)
why梯度消失
- 因?yàn)锽P算法采用鏈?zhǔn)椒▌t，從后層向前層傳遞信息時(shí)，
- 若每層神經(jīng)元對(duì)上一層神經(jīng)元偏導(dǎo)乘以w均小于1，多次鏈?zhǔn)椒▌t,多級(jí)導(dǎo)數(shù)權(quán)值相乘結(jié)果會(huì)越來(lái)越小，導(dǎo)致loss傳遞到越前方越小。
- w采用正態(tài)分布初始化<1
- $?yi?zi<1\frac{\partial y_i}{\partial z_i}<1$

RBM DBN DBM hopfield比較

網(wǎng)絡(luò)結(jié)構(gòu)狀態(tài)…目標(biāo)函數(shù)…特點(diǎn)

Hopfield網(wǎng)絡(luò)	單層，全連接（有權(quán)，無(wú)向圖）wij=wji,wii=0	1，-1（0）,確定性地取1、0	$E=?12STωSE=-\frac{1}{2}S^T\omega S$	1.確定性地接受能量下降方向；2.會(huì)達(dá)到局部極小（模擬退火解決，以一定概率接受能量上升）
Boltzman機(jī)器	p(v)符合玻爾茲曼分布，生成模型，有隱層(與外部無(wú)連接），有可見層（輸入層、輸出層）(與外部有鏈接，收到外部約束），全連接（同層也有）（有權(quán)無(wú)向圖）wij=wji,wii=0	1(on),0(off),狀態(tài)滿足boltzman分布,以p取1（二值神經(jīng)元）	$PαPβ=exp(?(E(Sα)?E(Sβ))/T)\frac{P_\alpha}{P_\beta}=exp(-(E(S^\alpha)-E(S^\beta))/T)$	1.接受能量下降，以p( $p(si=1)=11+exp(?bi?Σjsjwji)p(s_i=1)=\frac{1}{1+exp(-b_i-\Sigma_js_jw_{ji})}$ )接受能量上升（模擬退火）2.訓(xùn)練時(shí)間長(zhǎng)，3.結(jié)構(gòu)復(fù)雜，4.也可能局部極小；5.功能強(qiáng)大
RBM(受限Boltzman機(jī)	p(v)符合玻爾茲曼分布,生成模型，區(qū)別：同層無(wú)連接，其他全連接，可見層1（輸入v)、隱藏層1(h，給定可視層下，條件獨(dú)立)（二部圖）	vi,hj，{0,1}，以p取1（二值神經(jīng)元）	聯(lián)合組態(tài)能量函數(shù) $E(v,h;θ)=?Σijwijvihj?Σibivi?Σjajhj,pθ(v,h)=1Z(θ)exp(?E)，目標(biāo)函數(shù)log(pθ(v))(極大似然）E(v,h;\theta)=-\Sigma_{ij}w_{ij}v_ih_j-\Sigma_{i}b_{i}v_i-\Sigma_{j}a_{j}h_j, p_\theta(v,h)=\frac{1}{Z(\theta)}exp(-E)，目標(biāo)函數(shù)log(p_\theta(v))(極大似然）$
DBN	生成模型，多層，頂層無(wú)向圖（RBM)（hn-1-hn),低層(v<-hn-1),去除上層，下層是個(gè)RBM	（二值神經(jīng)元）	從下到上逐層當(dāng)做RBM訓(xùn)練	低層是單向的與RBM不一致，所以提出了DBM
DBM	p(v)符合玻爾茲曼分布,生成模型，多層，全無(wú)向圖	（二值神經(jīng)元）	雙向，每層需要考慮上下層神經(jīng)元（多層） $E(v,h1,h2;θ)=?vTW1h1?h1TW2h2;p(v)=Σh1,h21Zexp(?E)E(v,h^1,h^2;\theta)=-v^TW^1h^1-h^{1T}W^2h^2;p(v)=\Sigma_{h1,h2}\frac {1}{Z}exp(-E)$	低層是單向的與RBM不一致，所以提出了DBM

結(jié)構(gòu)及特性

DNN 全連接
Hopfield 全連接，確定性閾值神經(jīng)元
- 參數(shù)計(jì)算得到
BM 全連接，二值神經(jīng)元
RBM/DBM 無(wú)向圖，層間全連接，二值神經(jīng)元
- 逐層貪婪訓(xùn)練
DBN 低層有向<–，高層無(wú)向（高->低）
- 逐層貪婪訓(xùn)練
RNN 權(quán)值共享的多層前向神經(jīng)網(wǎng)絡(luò)（循環(huán)）
- 序列、時(shí)間
- 不同時(shí)間的RNN權(quán)值一樣
- BPTT訓(xùn)練（LSTM也是）
CNN 局部連接，參數(shù)共享，子采樣
- 圖
- 改進(jìn)：用relu和dropout

逐層貪婪訓(xùn)練與CD

DBN 逐層貪婪訓(xùn)練
- 僅保留v,h1層，使用CD-1訓(xùn)練得到W1
- 增加h2層，保持W1不變，h1右Q(h1|v)采樣得到作為輸入。h1/h2使用CD-1訓(xùn)練得到W2
- 類比
DBM 逐層貪婪訓(xùn)練
- 訓(xùn)練時(shí)采用雙方向（上下兩層），同時(shí)考慮兩個(gè)或多個(gè)隱層
- 由能量模型也可以得到p(v)——也符合boltzman分布
- $p(v)=Σh1,h2,h31Zexp(vTW1h1+h1TW2h2+h2TW3h3)p(v)=\Sigma_{h1,h2,h3}\frac {1}{Z}exp(v^TW^1h^1+h^{1T}W^2h^2+h^{2T}W^3h^3)$
- 兩層的能量： $E(v,h1,h2;θ)=?vTW1h1?h1TW2h2E(v,h^1,h^2;\theta)=-v^TW^1h^1-h^{1T}W^2h^2$
  - $p(v)=Σh1,h21Zexp(?E)p(v)=\Sigma_{h1,h2}\frac {1}{Z}exp(-E)$
  - $p(hj1=1∣v,h2)=σ(ΣiWij1vi+ΣWjm2hj2)p(h^1_j=1|v,h^2)=\sigma(\Sigma_iW^1_{ij}v_i+\Sigma W^2_{jm}h_j^2)$
  - $p(hm2=1∣h1)=σ(ΣiWim2hi1)p(h_m^2=1|h^1)=\sigma(\Sigma_iW^2_{im}h_i^1)$
  - $p(vi=1∣h1)=σ(ΣiWij1hj)p(v_i=1|h^1)=\sigma(\Sigma_iW^1_{ij}h_j)$
CD-1
- $p(v∣θ)極大似然估計(jì)，得到導(dǎo)數(shù)?p(v)?wij?p(v)?bi?p(v)?ajp(v|\theta)極大似然估計(jì)，得到導(dǎo)數(shù)\\\frac{\partial p(v)}{\partial w_{ij}}\\\frac{\partial p(v)}{\partial b_{i}}\\\frac{\partial p(v)}{\partial a_{j}}$
- $依據(jù) 導(dǎo) 數(shù) ，對(duì) 觀測(cè) 變量的所有維度的梯度求和平均，來(lái) 更新參數(shù)$

BP

BP算法流程：
選取訓(xùn)練數(shù)據(jù)輸入網(wǎng)絡(luò)
根據(jù)權(quán)重與激活函數(shù)計(jì)算輸出
算出實(shí)際輸出與目標(biāo)輸出之間的誤差
反向傳播誤差使全局誤差最小
BPTT
- 不同時(shí)間的相加一起更新

GAN

GAN
- 核心思想：博弈論的納什均衡——對(duì)抗達(dá)到平衡（共同進(jìn)步）
  - 生成器：盡量生成真實(shí)的分布——努力讓判別器認(rèn)不出來(lái)
    - 輸入向量，輸出圖或序列。。。
    - 不同的向量表示不同的特征
    - 想要發(fā)現(xiàn)數(shù)據(jù)的分布 $P_{data}(x)$
      - 假設(shè)一個(gè)分布 $Pdata(x;θ),用極大似然去找θP_{data}(x;\theta),用極大似然去找\theta$
  - 判別器：區(qū)分是生成的還是真實(shí)的（努力讓他能認(rèn)出生成器生成的數(shù)據(jù)）
    - 輸入：圖片
    - 輸出：標(biāo)量評(píng)分
      - 分越大，越真實(shí)–1
      - 分小則假–0.1
- 基本原理：有一個(gè)判別器有一個(gè)生成器，生成器生成圖片讓判別器判別，生成器提升自己讓判別器無(wú)法判別，判別器則提升自己努力識(shí)別出生成器生成的圖片/序列，雙方對(duì)抗達(dá)到平衡
- 學(xué)習(xí)算法
  - 固定生成器G0，訓(xùn)練判別器，提升判別器的判別能力得到D1
  - 固定判別器D1,訓(xùn)練生成器，提升生成器的生成能力，目標(biāo)讓判別器無(wú)法識(shí)別，得到G1
  - 再回到1中用G1訓(xùn)練判別器得到D2,…,依次迭代，直至兩者平衡。
  - $V(G,D)=1mΣi=1m[log(D(xi))]+1mΣi=1m[log(1?D(G(zi)))](G固定）V(G,D)=\frac{1}{m}\Sigma_{i=1}^m[log(D(x^i))]+\frac{1}{m}\Sigma_{i=1}^m[log(1-D(G(z^i)))] (G固定）$
  - $V(G,D)=1mΣi=1m[log(1?D(G(zi)))](d固定）V(G,D)=\frac{1}{m}\Sigma_{i=1}^m[log(1-D(G(z^i)))] (d固定）$

4.邏輯

一階謂詞邏輯下機(jī)器自動(dòng)證明的正確步驟：(?)

結(jié)論取反

量詞前束

合取范式標(biāo)準(zhǔn)化

歸結(jié)樹歸結(jié)

一階謂詞邏輯表示

勝者為王，敗者為寇
- $(? x, W i n n e r (x) = > K i n g (x)) \land (? y, L o s e r (y) = > K o u (y))$
- $? x ? y, W i n (x, y) = > K i n g (x) \land K o u (y)$

模糊邏輯表示

畫圖表示
很少有成績(jī)好的學(xué)生特別貪玩
- 很少就可以是量詞
- $ΔxG(x)=>P′(x)\Delta x G(x)=>P'(x)$
  - '–加強(qiáng)了變成了原來(lái)的平方
大多數(shù)成績(jī)好的學(xué)生學(xué)習(xí)都很刻苦。

$ΣxG(x)=>H′(x)\Sigma x G(x)=>H'(x)$

一個(gè)永遠(yuǎn)無(wú)法歸結(jié)結(jié)束的FOL

合取范式規(guī)范化

? (? x){P(x)=>{(?y)[p(y)=>P(f(x,y))]∧?(? y)(?w)[Q(x,y)=>P(y,w)]}}
去除=>
否定內(nèi)移
改換符號(hào)y->z
去除存在量詞
- 全局的：A
- 局部的：g(z)
全稱量詞前移
消除全稱量詞
變換成CNF

歸結(jié)原理

一階謂詞邏輯要合一化（置換）

4.1resolution是完備的、可靠的

可靠性：|- --> |=
- 歸結(jié)的過(guò)程是可靠的
- 歸結(jié)過(guò)程：C1、C2中有互補(bǔ)文字==》C1∨C2
  - 已知C1,C2 |- C1∨C2
  - 證明C1,C2 |= C1∨C2
    - 因?yàn)橥评硪?guī)則是可靠的（檢查真值表）

C1C2C1∨C2

false	false	false
true	false	true
false	true	true
true	true	true

完備性：
- 已知C1,C2 |= C1∨C2
- 證明C1,C2 |- C1∨C2
- RC(S)–歸結(jié)閉集 resolution closure–所有S歸結(jié)出來(lái)的都在RC(S)中=PL-Resolution(KB, $α\alpha$ )的最終clauses
  - S={KB,? $α\alpha$ }
    - KB |= $α\alpha$ <>KB∧ ? $α\alpha$ 不可滿足（永假）<=>S不可滿足
- ground resolution theorem:S不可滿足==>RC(S)中包含空子句
  - 證明：從逆否命題入手:S可滿足<==RC(S)中不包含空子句
- 因?yàn)镽C(S)是有限的，所以PL-Resolution(KB, $α\alpha$ )總是可以終止的
- PL-Resolution(KB, $α\alpha$ )的終止條件是clauses中包含空子句
ground resolution theorem:S不可滿足==>RC(S)中包含空子句
- 證明：從逆否命題入手:RC(S)中不包含空子句==>S可滿足

Modus ponens

4.1 蘊(yùn)含與包含的證明

蘊(yùn)含與implication的關(guān)系

5. 模糊數(shù)學(xué)和遺傳算法

遺傳算法

遺傳算法模擬自然界優(yōu)勝劣汰過(guò)程進(jìn)行優(yōu)化問(wèn)題的求解
利用選擇、交叉、變異產(chǎn)生更多可能的解
目標(biāo)函數(shù)：天然可作為遺傳算法的適應(yīng)度函數(shù)
選擇-受適應(yīng)度函數(shù)控制
交叉、變異–不受適應(yīng)度函數(shù)控制
- 以某種概率進(jìn)行交叉、變異

6. 強(qiáng)化學(xué)習(xí)

方法確定性？特性

貪心策略	$At=argmax_aQ_t(a)(均值）$	確定性算法	目標(biāo)是當(dāng)前行為的期望收益
$?\epsilon$ 貪心策略	$1??1-\epsilon$ :貪心選擇； $?\epsilon$ :隨機(jī)選擇	確定性算法	-
樂(lè)觀初值法Optimistic initial values	每個(gè)行為的初值都高Q1高， $?=0\epsilon=0$ ，	確定性算法	初始只探索，最終貪心
UCB	$AT=argmaxa(Qt(a)+clntNt(a)),Nt(a)?a被選擇的次數(shù)A_T=argmax_a(Q_t(a)+c\sqrt{\frac{lnt}{N_t(a)}}),N_t(a)-a被選擇的次數(shù)$	確定性算法	最初差，后比貪心好，收斂于貪心
梯度賭博機(jī)算法	$P(A_t=a)=\frac{e^{{H_t(a)}}{\Sigma_b=1}k e^{H_t(b)}}=\pi_t(a).優(yōu)化目標(biāo) E(R_t)=\Sigma_b\pi_t(b)q(b) $	不確定性算法	更新Ht

多臂賭博機(jī)：累積收益最大=每次搖臂的平均期望收益最大

計(jì)算時(shí)，還是按照上下左右的策略計(jì)算的–貝爾曼方程，而不是貝爾曼最優(yōu)方程
方法比較
- 蒙特卡羅：深
- 動(dòng)態(tài)規(guī)劃：寬
- 時(shí)序差分，只有一個(gè)

7. 群體智能

蟻群優(yōu)化算法粒子群優(yōu)化算法

基本原理	局部隨機(jī)搜索與正反饋相結(jié)合
算法過(guò)程	1.隨機(jī)放置螞蟻；2.對(duì)每個(gè)螞蟻，依據(jù)概率P(與鄰接路徑的信息素濃度和啟發(fā)式信息有關(guān))選擇下一步移動(dòng)位置；3.當(dāng)所有螞蟻跑完一輪（所有城市跑完一次），更新信息素濃度（與螞蟻跑過(guò)的路徑和路過(guò)的螞蟻的數(shù)目有關(guān)，并且隨時(shí)間減少）；3.重復(fù)至收斂	1.隨機(jī)放置粒子，設(shè)置其初始速度；2.計(jì)算各粒子的f(xi)(f(x)是目標(biāo)函數(shù)值），記錄其當(dāng)前最優(yōu)g及各個(gè)粒子歷史最右xi;3.依據(jù)xi和g和當(dāng)前速度改變速度，移動(dòng)到下一位置；4.重復(fù)23至收斂
適用范圍	離散問(wèn)題	連續(xù)問(wèn)題
更新	一輪一更新（batch)	一步一計(jì)算(隨機(jī)）
優(yōu)點(diǎn)		易于實(shí)現(xiàn)；可調(diào)參數(shù)較少；所需種群或微粒群規(guī)模較小；計(jì)算效率高，收斂速度快。
缺點(diǎn)	收斂速度慢（找最優(yōu)解的情況下）；易于陷入局部最優(yōu)；對(duì)于解空間為連續(xù)的優(yōu)化問(wèn)題不適用	和其它演化計(jì)算算法類似，不保證收斂到全局最優(yōu)解

粒子群優(yōu)化算法遺傳算法

協(xié)同合作，不好的向好的學(xué)習(xí)	適者生存，不好的淘汰掉
最好的個(gè)體通過(guò)吸引其他個(gè)體向他靠近來(lái)施加影響	最好的個(gè)體產(chǎn)生后代來(lái)傳播基因
除了速度位置外，還有過(guò)去的歷史信息	只與上一代有關(guān)，與歷史無(wú)關(guān)，markov鏈的過(guò)程

8. 博弈

議價(jià)范圍

雙方估價(jià)之差
成本100，標(biāo)價(jià)200，買方估價(jià)160，賣方估價(jià)120
- 議價(jià)范圍：120~160

網(wǎng)絡(luò)交換博弈–均衡結(jié)局

均衡結(jié)局：全部滿足均衡議價(jià)解的結(jié)局
- 雙方備胎x,y，x+y<=1才能議價(jià)
- 議價(jià)空間s=1-x-y
- A=x+s/2
- B=y+s/2
- A-B-C-D
  - 均衡結(jié)局：A=1/3=D,B=C=2/3
  - 穩(wěn)定結(jié)局：未配對(duì)的邊兩節(jié)點(diǎn)的效用和<1

最優(yōu)

帕累托最優(yōu)
- 以意大利經(jīng)濟(jì)學(xué)家維爾弗雷多·帕累托的名字命名
- 對(duì)于一組策略選擇（局勢(shì)），若不存在其他策略選擇使所有參與者得到至少和目前一樣高的回報(bào)，且至少一個(gè)參與者會(huì)得到嚴(yán)格較高的回報(bào)，則這組策略選擇為帕累托最優(yōu)
社會(huì)最優(yōu)
- 使參與者的回報(bào)之和最大的策略選擇（局勢(shì)）
- 社會(huì)最優(yōu)的結(jié)果一定也是帕累托最優(yōu)的結(jié)果
- 帕累托最優(yōu)不一定是社會(huì)最優(yōu)
- 社會(huì)：是所有局中人構(gòu)成的社會(huì)

minmax和max min

minmax：最小化對(duì)手最好情況下的收益—對(duì)象時(shí)對(duì)方的效用
- 用于零和博弈
maxmin：最大化自己最壞情況下的收益–對(duì)象是自己的效用
零和博弈下：二者等價(jià)

納什均衡

每個(gè)人的策略都是當(dāng)前策略的最佳應(yīng)對(duì)
混合：讓對(duì)手各個(gè)情況下的收益都一樣。
純：誰(shuí)動(dòng)誰(shuí)輸

市場(chǎng)結(jié)清價(jià)格
- 完全匹配是否存在可以通過(guò)尋找受限集來(lái)判斷
- 價(jià)格能夠引導(dǎo)市場(chǎng)優(yōu)化配置
- 市場(chǎng)結(jié)清價(jià)格總是存在
- 市場(chǎng)結(jié)清價(jià)格使得買賣雙方總效用最優(yōu)

maxmin策略minmax策略混合納什均衡策略

公式	$argmax_{s_i}min_{s_{-i}}u_i(s_i,s_{-i})$	$argmin_{s_i}max_{s_{j}}u_j(s_i,s_{j})$	a的分布不變情況下，使得b的各種策略的期望都一樣
目的	損失最小化，預(yù)防對(duì)手不理性情況	把對(duì)手弄趴下，自己就贏了	自己的策略讓對(duì)手無(wú)路可走（走哪里都一樣）
用于	多人博弈	零和博弈	-
特點(diǎn)	穩(wěn)妥，以我為主	抑制對(duì)手	抑制對(duì)手

田忌賽馬

剪刀石頭布

剪刀石頭布
- 局中人
  - 兩個(gè)玩家
- 策略
  - 剪刀、石頭、布
- 效用函數(shù)矩陣
- 不存在純策略的納什均衡
  - 在任何情況下，對(duì)方都能找到更好的策略
- 混合策略下的納什均衡
  - 混合策略
    - 玩家一的策略選擇分布記為𝑝 ={ 𝑝1, 𝑝2, 1 ? 𝑝1 ? 𝑝2 }，玩家二的策略選擇分布記為𝑞 = 𝑞1, 𝑞2, 1 ? 𝑞1 ? 𝑞2
    - 假設(shè)玩家一的策略分布不變，玩家二策略選擇的效用為
      - 剪刀：0 ? 𝑝1 + ?1 ? 𝑝2 + 1 ?( 1 ? 𝑝1 ? 𝑝2) = 1 ? 𝑝1 ? 2𝑝2 —2的得分，1的概率—2的期望
      - 石頭：1 ? 𝑝1 + 0 ? 𝑝2 + ?1 ? ( 1 ? 𝑝1 ? 𝑝2) = 2𝑝1 + 𝑝2 ? 1
      - 布： ?1 ? 𝑝1 + 1 ? 𝑝2 + 0 ? ( 1 ? 𝑝1 ? 𝑝2) = 𝑝2 ? 𝑝1
    - 令玩家二的各個(gè)策略的效用相等，得到𝑝1 = 𝑝2 = 1/3
    - 同理可得𝑞1 = 𝑞2 = 1/3
  - 剪刀-石頭-布的混合納什均衡態(tài)
    - 每個(gè)玩家各以1/3的概率
    - 選擇剪刀、石頭和布
    - 期望收益均為0

剪刀石頭布

剪刀	0,0	-1,1	1,-1
石頭	1,-1	0,0	-1,1
布	-1,1	1,-1	0,0

性別之戰(zhàn)

性別之戰(zhàn)
- 局中人
  - 夫妻雙方
- 策略
  - 看韓劇、看體育
- 效用函數(shù)矩陣
- 納什均衡1：雙方都同意看韓劇
  - 妻子保持策略不變（看韓劇），丈夫如果改變策略（看體育），其效用會(huì)降低（從1變成0）
  - 丈夫保持策略不變（看韓劇），妻子如果改變策略（看體育），其效用會(huì)降低（從2變成0）
- 納什均衡2：雙方都同意看體育
- maxmin策略：(以我為主）
  - 妻子：p選擇韓劇，1-p選擇體育
  - 丈夫：q選擇韓劇，1-q選擇體育
  - 妻子的期望： $u_w(p,q)=2pq+(1-p)(1-q)=3pq-p-q+1$
  - 先min ： $min_q（3pq-p-q+1)$
    - 求導(dǎo)， $u_w(p,q)$ 單調(diào)（不知遞增遞減）—極值點(diǎn)為q=0或1
    - 帶入q： $min_q u_w(p,q)=min(1-p,2p)--這個(gè)可以畫出折線圖，找圖中最大的點(diǎn)$
  - 再max：找 $m i n (1 ? p, 2 p)$ 的最大點(diǎn)–p=1/3
  - 所以
    - 妻子：1/3選擇韓劇，2/3選擇體育
    - 丈夫：2/3選擇韓劇，1/3選擇體育
  - –考慮到對(duì)方是最穩(wěn)妥的策略
- minmax策略：（抑制對(duì)手，此種錯(cuò)誤，因?yàn)樾詣e之戰(zhàn)不是零和博弈）
  - 妻子：p選擇韓劇，1-p選擇體育
  - 丈夫：q選擇韓劇，1-q選擇體育
  - 丈夫的期望： $u_f(p,q)=pq+2(1-p)(1-q)=3pq-2p-2q+2$
  - 先min $max_q（3pq-2p-2q+2)$
    - 求導(dǎo)， $u_f(p,q)$ 單調(diào)（不知遞增遞減）—極值點(diǎn)為q=0或1
    - 帶入q： $max_q u_f(p,q)=max(2-2p,p)--這個(gè)可以畫出折線圖，找圖中最大的點(diǎn)$
  - 再max：找 $m a x (2 ? 2 p, p)$ 的最大點(diǎn)–p=2/3
  - 所以
    - 妻子：2/3選擇韓劇，1/3選擇體育
    - 丈夫：1/3選擇韓劇，2/3選擇體育
  - –考慮到對(duì)方是最穩(wěn)妥的策略
- 混合納什均衡策略（抑制對(duì)手）
  - 妻子：p選擇韓劇，1-p選擇體育
  - 丈夫：q選擇韓劇，1-q選擇體育
  - 假設(shè)妻子策略分布不變，丈夫的期望為
    - 丈夫看韓劇：p
    - 丈夫看體育：2（1-p)
    - 令相同p=2(1-p)==>p=2/3
  - 所以
    - 妻子：2/3選擇韓劇，1/3選擇體育
    - 丈夫：1/3選擇韓劇，2/3選擇體育

拍賣

經(jīng)濟(jì)市場(chǎng)
- 解決稀有資源的分配問(wèn)題
- 一般市場(chǎng)
  - 多個(gè)賣家、多個(gè)買家
- 討價(jià)（Bargaining）
  - 多個(gè)賣家、一個(gè)買家
- 拍賣（Auction）
  - 一個(gè)賣家、多個(gè)買家
拍賣活動(dòng)
- 買家之間的博弈
- 一個(gè)賣家向一群買家拍賣一件商品的活動(dòng)
- 拍賣的基本假設(shè)
  - 每個(gè)競(jìng)爭(zhēng)者對(duì)被拍賣的商品有各自的估值
    - 這個(gè)估值是競(jìng)拍者對(duì)商品實(shí)際所值的估計(jì)
  - 如果商品售價(jià)<=這個(gè)估值，競(jìng)拍者會(huì)購(gòu)買，否則不會(huì)購(gòu)買
    - –>因?yàn)槔硇宰运饺?/li>
- 拍賣類型
- 拍賣類型
  - 增價(jià)拍賣，又稱英式拍賣
    - 拍賣者逐漸提高售價(jià)，競(jìng)拍者不斷退出，直到只剩一位競(jìng)拍者，該競(jìng)拍者以最后的報(bào)價(jià)贏得商品
  - 減價(jià)拍賣，又稱荷式拍賣
    - 拍賣者逐漸降低售價(jià)，直到有競(jìng)拍者出價(jià)購(gòu)買
  - 首價(jià)密封報(bào)價(jià)拍賣
    - 競(jìng)拍者同時(shí)向拍賣者提交密封報(bào)價(jià)，拍賣者同時(shí)打開這些報(bào)價(jià)，出價(jià)最高的競(jìng)拍者以其出價(jià)購(gòu)買該商品
    - 納什均衡：每個(gè)競(jìng)拍者的價(jià)格低于估價(jià)
      - 共有𝑛個(gè)競(jìng)拍者，競(jìng)拍者𝑖的估價(jià)記為𝑣𝑖，報(bào)價(jià)記為𝑏𝑖，其他競(jìng)拍者的估價(jià)服從[𝑎, 𝑏]區(qū)間上的均勻分布，且誠(chéng)實(shí)出價(jià)
      - 𝑏𝑖 < 𝑎時(shí)，競(jìng)標(biāo)失敗，收益為0
      - 競(jìng)拍者i獲勝的概率 $(bi?ab?a)n?1\left( \frac{b_i-a}{b-a} \right)^{n-1}$
      - 競(jìng)拍者的期望收益 $f(bi)=(vi?bi)(bi?ab?a)n?1f(b_i)=(v_i-b_i)\left( \frac{b_i-a}{b-a} \right)^{n-1}$
      - 求導(dǎo)得到最優(yōu)解 $f′(bi)=?(bi?ab?a)n?1+(n?1)(vi?bi)(bi?ab?a)n?21b?a=(bi?ab?a)n?2(?nbi+a+(n?1)vib?a)f'(b_i)\\=-\left( \frac{b_i-a}{b-a} \right)^{n-1}+(n-1)(v_i-b_i)\left( \frac{b_i-a}{b-a} \right)^{n-2}\frac{1}{b-a}\\=\left( \frac{b_i-a}{b-a} \right)^{n-2}\left(\frac{-nb_i+a+(n-1)v_i}{b-a}\right)$
      - 最優(yōu)報(bào)價(jià)為 $bi?=a+(n?1)vin<vib_i^*=\frac{a+(n-1)v_i}{n}<v_i$
        競(jìng)拍者越多越接近于估價(jià)
  - 次價(jià)密封報(bào)價(jià)拍賣
    - 競(jìng)拍者同時(shí)向拍賣者提交密封報(bào)價(jià)，出價(jià)最高的競(jìng)拍者贏得商品但以第二高出價(jià)購(gòu)買該商品
    - 納什均衡：每個(gè)競(jìng)拍者的價(jià)格等于估價(jià)
      - 給定一個(gè)競(jìng)拍者，其估價(jià)記為𝑣，報(bào)價(jià)記為𝑏，其他競(jìng)拍者的最高報(bào)價(jià)記為𝑏?
      - 理性行為假設(shè)下，報(bào)價(jià)不會(huì)高于估價(jià)，即𝑏 ≤ 𝑣
      - 此時(shí)，根據(jù)𝑏?的取值有三種情形
        𝑏? > 𝑣：收益為0；—沒拍到
        將報(bào)價(jià)從𝑏提高到𝑣，收益不變
        
        𝑏? < 𝑏：收益為𝑣 ? 𝑏? ；
        將報(bào)價(jià)從𝑏提高到𝑣 ，收益不變
        
        𝑏 ≤ 𝑏? ≤ 𝑣：收益為0；—沒拍到
        將報(bào)價(jià)從𝑏提高到𝑣 ，收益變?yōu)?#x1d463; ? b*–提高后拍到了
  - 雙方出價(jià)
    - 股票市場(chǎng)

討價(jià)

討價(jià)
- 賣家和買家之間的博弈
- 討價(jià)的對(duì)象：是雙方對(duì)商品估價(jià)之差
- 假設(shè)所有因素都已經(jīng)體現(xiàn)在估價(jià)中
  - 時(shí)間、情感、眼緣等
- 例子：
  - 衣服進(jìn)價(jià)80，標(biāo)價(jià)200
  - 賣家對(duì)衣服的估價(jià)在80和200之間，譬如120
  - 買家的估價(jià)假如為160
  - 討價(jià)的對(duì)象：是雙方的估價(jià)之差，即160-120=40
后續(xù)的討論中，將討價(jià)對(duì)象視為整體1
- 賣家的估價(jià)為0，買家的估價(jià)為1
  [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-ZYtdgebF-1578389328371)(attachment:image.png)]
  A-賣家
  B-買家

討價(jià)的情形

場(chǎng)景1-一口價(jià)
- Take-it-or-leave-it：無(wú)商談?dòng)嗟?/li>
- 一方報(bào)價(jià)，另一方要么接受報(bào)價(jià)達(dá)成交易，要么交易失敗
  - 兩個(gè)人商量吃蛋糕，一方提出切分比例，另一方如果不同意，雙方就都不吃
  - 美國(guó)參議院：民主黨提出增加財(cái)政預(yù)算到某個(gè)值，共和黨要么同意，要么拒絕（但不能提新的方案）
- 通過(guò)**回滾(rollback)**求解納什均衡
- Take-it-or-leave-it
  - 過(guò)程
    - 階段1：甲方提出，按照1-p和p的比例進(jìn)行分配
    - 階段2：只要p大于0，乙方則會(huì)接受p
  - 甲方（分配方案提出者）得到幾乎所有收益

Take-it-or-counteroffer：要么接受，要么還價(jià)
- 過(guò)程
  - 第一階段：甲方報(bào)價(jià)：1-p, p
  - 第二階段：乙方要么接受報(bào)價(jià)，要么還價(jià)𝛿 ? (1 ? 𝑞)，𝛿 ? 𝑞
  - 第三階段：甲方?jīng)Q定要么接受乙方的還價(jià)，要么交易失敗
- 約束條件
  - 時(shí)間成本：𝛿刻畫可用于分配的總收益隨時(shí)間衰減（0 ≤ 𝛿 ≤ 1）
    - 用來(lái)防止甲方不要欺負(fù)乙方–不然兩人的收益都會(huì)變少
    - 例子：NBA勞工談判，分配一個(gè)會(huì)融化的蛋糕
Take-it-or-counteroffer過(guò)程推演
- 第一階段之后等同于take-it-or-leave-it討價(jià)
- 假如第一階段乙方?jīng)]有接受甲方的報(bào)價(jià)，那么在接下的take-it-or-leave-it過(guò)程中，甲方的收益將趨近于0
- 因此，甲方在第一階段報(bào)價(jià)時(shí)，分配給乙方的收益不少于乙方拒絕報(bào)價(jià)后所得到的收益
  - $p≥δ?(1?q)≈δp\geq \delta*(1-q) \approx \delta$
    - $p ：第一輪甲方報(bào) 價(jià) 中，乙方的收益；$
    - $δ：甲方拒絕后，乙方報(bào)價(jià)時(shí)可以得到的收益\delta：甲方拒絕后，乙方報(bào)價(jià)時(shí)可以得到的收益$
- 啟示
  - 在時(shí)間成本約束下，甲乙雙方盡可能會(huì)在第一輪達(dá)成交易，使雙方收益最大
  - 甲的報(bào)價(jià)，要根據(jù)時(shí)間成本決定
  - 乙的收益依賴于對(duì)時(shí)間成本的容忍度
  - 最終的分配比例是：
    - 甲方： $1?δ1-\delta$ ;
    - 乙方 $δ\delta$
  - 蛋糕融化的越慢，乙方收益越大
- 先發(fā)優(yōu)勢(shì)，還是后發(fā)制人？
  - 當(dāng)時(shí)間成本較高（即𝛿較小）時(shí)，甲方有先發(fā)優(yōu)勢(shì)
    - 例如：炎熱的夏天，蛋糕融化得快
  - 當(dāng)時(shí)間成本較低（即𝛿較大）時(shí)，乙方可后發(fā)制人
    - 例如：寒冷的冬天，蛋糕融化得慢
- 啟示：博弈規(guī)則決定最終的結(jié)果

打官司

打官司
- 原告訴訟被告，要求賠償100萬(wàn)
  - 訴訟費(fèi)原告和被告各支付10萬(wàn)
- 情形1
  - 雙方各自認(rèn)為自己勝訴的概率為1/2
  - 開啟訴訟E=1/2100+1/20=50
    - 原告收益：50萬(wàn)-10萬(wàn)=40萬(wàn)；
    - 被告收益：-50萬(wàn)-10萬(wàn)=-60萬(wàn)
  - 可以達(dá)成庭外和解：譬如被告支付50萬(wàn)給原告
    - 原告能接受的最低價(jià)是：40萬(wàn)
    - 被告能提供的最高價(jià)是：60萬(wàn)
    - 討價(jià)分配的“蛋糕”大小為20萬(wàn)
- 情形2
  - 雙方各自認(rèn)為自己勝訴的概率為3/4
  - 開啟訴訟
    - 原告預(yù)期收益：75萬(wàn)-10萬(wàn)=65萬(wàn)；
    - 被告預(yù)期收益：-25萬(wàn)-10萬(wàn)=-35萬(wàn)
  - 無(wú)法達(dá)成和解——沒有交集
    - 原告能接受的最低價(jià)是：65萬(wàn)
    - 被告能提供的最高價(jià)是：35萬(wàn)
    - 討價(jià)分配的蛋糕大小是：-30萬(wàn)
  - 假如訴訟費(fèi)是30萬(wàn)呢？
    - 75-30=45
    - -25-30=-45
    - 可以和解–45萬(wàn)
- 定價(jià)決定一切–規(guī)則決定
博弈規(guī)則決定博弈結(jié)果
各自的“底牌”是對(duì)方報(bào)價(jià)的依據(jù)
討價(jià)的蛋糕大小由雙方的底牌決定

海盜分金幣

傳說(shuō)，從前有五個(gè)海盜搶得了100枚金幣.他們通過(guò)了一個(gè)如何確定選用誰(shuí)的分配方案的安排.即：
抽簽決定各人的號(hào)碼（1，2，3，4，5）；
先由1號(hào)提出分配方案，然后5個(gè)人表決.當(dāng)且僅當(dāng)超過(guò)半數(shù)人同意時(shí)，方案才算被通過(guò)，否則他將被扔入大海喂鯊魚；
當(dāng)1號(hào)死后，再由2號(hào)提方案，4個(gè)人表決，當(dāng)且僅當(dāng)超過(guò)半數(shù)同意時(shí)，方案才算通過(guò)，否則2號(hào)同樣將被扔入大海喂鯊魚；
往下依次類推……
根據(jù)上面的這個(gè)故事，現(xiàn)在提出如下的一個(gè)問(wèn)題.即：
- 我們假定每個(gè)海盜都是很聰明的人，并且都能夠很理智地判斷自己的得失，從而做出最佳的選擇，那么第一個(gè)海盜應(yīng)當(dāng)提出怎樣的分配方案才能夠使自己不被扔入大海喂鯊魚，而且收益還能達(dá)到最大化呢？
Solution:
倒推，從后往前推，人數(shù)依次增加
- 對(duì)于4號(hào)來(lái)說(shuō)：如果１－３號(hào)強(qiáng)盜都喂了鯊魚，只剩４號(hào)和５號(hào)的話。（100,0）
- 對(duì)于3號(hào)來(lái)說(shuō)：３號(hào)知道這一點(diǎn)，就會(huì)提（99，０，1）的分配方案，因?yàn)樗?號(hào)一無(wú)所獲但還是會(huì)投贊成票，再加上自己一票，他的方案即可通過(guò)。
- 對(duì)于2號(hào)來(lái)說(shuō)：２號(hào)推知到３號(hào)的方案，就會(huì)提出（９9，０，１，0）的方案，即放棄３號(hào)，而給予４號(hào)和５號(hào)各一枚金幣。由于該方案對(duì)于４號(hào)和５號(hào)來(lái)說(shuō)比在３號(hào)分配時(shí)更為有利，他們將支持他而不希望他出局而由３號(hào)來(lái)分配。這樣，２號(hào)將拿走９８枚金幣。
- 對(duì)于1號(hào)來(lái)說(shuō)：２號(hào)的方案會(huì)被１號(hào)所洞悉，１號(hào)并將提出（９8，0，１，0，1）的方案，即放棄２號(hào)，而給３號(hào)一枚金幣，同時(shí)給5號(hào)1。由于１號(hào)的這一方案對(duì)于３號(hào)和４號(hào)（或５號(hào)）來(lái)說(shuō)，相比２號(hào)分配時(shí)更優(yōu)，他們將投１號(hào)的贊成票，再加上１號(hào)自己的票，１號(hào)的方案可獲通過(guò)，９７枚金幣可輕松落入囊中。這無(wú)疑是１號(hào)能夠獲取最大收益的方案了！
總結(jié)：我們對(duì)這種問(wèn)題要從后向前推，因?yàn)槲覀冃枰篮竺娴臅?huì)根據(jù)什么樣的情況做出什么樣的決定的時(shí)候，我們才可以做出對(duì)自己最有利的決定（因?yàn)樽约旱臎Q定使一定數(shù)量的海盜得到的比自己死去之后得到的要多），讓后面的能支持自己。
只要比下一個(gè)結(jié)果好就行

匹配問(wèn)題分宿舍

中介

納什均衡狀態(tài)–中介之間的博弈
壟斷
- T1–S1/B1
- T2–S3/B3
充分競(jìng)爭(zhēng)
- T1、T2在S2/B2中充分競(jìng)爭(zhēng)（報(bào)價(jià)一致了
- 不掙錢
- x=依據(jù)市場(chǎng)競(jìng)爭(zhēng)程度，可能很高也可能很低

總結(jié)

以上是生活随笔為你收集整理的国科大高级人工智能-总结的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

国科大高级人工智能-总结

文章目錄

1.概論

2. 搜索

A*最優(yōu)性

三個(gè)傳教士與野人

3.神經(jīng)網(wǎng)絡(luò)

RBM DBN DBM hopfield比較

結(jié)構(gòu)及特性

逐層貪婪訓(xùn)練與CD

BP

GAN

4.邏輯

一個(gè)永遠(yuǎn)無(wú)法歸結(jié)結(jié)束的FOL

合取范式規(guī)范化

歸結(jié)原理

4.1resolution是完備的、可靠的

Modus ponens

4.1 蘊(yùn)含與包含的證明

蘊(yùn)含與implication的關(guān)系

5. 模糊數(shù)學(xué)和遺傳算法

6. 強(qiáng)化學(xué)習(xí)

7. 群體智能

8. 博弈

田忌賽馬

剪刀石頭布

性別之戰(zhàn)

拍賣

討價(jià)

討價(jià)的情形

打官司

海盜分金幣

匹配問(wèn)題分宿舍

中介

總結(jié)