基本运算的意义奇思
20220331
bm25逆文檔頻率
20220326
兩條mysql服務(wù)器同步更新主鍵id,通過奇偶來(lái)解決(互斥的兩種選擇)
如果后面再加服務(wù)器(三種情況的時(shí)候就要加入中介媒介來(lái)處理了),可以提前先生成主鍵id放在隊(duì)列里,公用的
每次生成都在公共id集中來(lái)取
或者步長(zhǎng)相隔很遠(yuǎn) 開始是1 一臺(tái) offset 1億 一臺(tái) offset兩億 一臺(tái)3億
或者 10001 1002 10003 offset都是3 步長(zhǎng)3能容納沖突 但后期還是不太智能
下面兩種方式屬于改變其他的某種元素
20220314
總結(jié)大數(shù)據(jù)中提高效率的方法
bitmap:位圖索引 向量存儲(chǔ) 代價(jià)小
20211219
- 減去均數(shù)除去主觀整體影響 評(píng)分
- 除以對(duì)應(yīng)的季節(jié)指數(shù),除去季節(jié)影響
- 差分去掉趨勢(shì)影響
總體原則除去公共的或者多余的部分
離散序列的d 階差分就相當(dāng)于連續(xù)變址的d 階求導(dǎo)
20211211
方程組的解法
1.直接求解
2.通解加特解
3.迭代法
4.近似解
矩估計(jì):就是利用樣本的統(tǒng)計(jì)特征來(lái)歸結(jié)總體的其他值比如利用均值,方差等來(lái)估計(jì)總體的相關(guān)系數(shù)等精度差作為
最小二乘法和極大似然估計(jì)的初始值
20211201
要比較二者的差異,同時(shí)屏蔽二者整體的或者說基數(shù)的不同,可以減去均值之后再比較
余弦相似度和皮爾遜相關(guān)系數(shù)的關(guān)系
歐式側(cè)重于絕對(duì)距離,余弦側(cè)重于相對(duì)差異 歐式歸一化之后呢?
20211125
TFIDF改進(jìn)
textrank也是關(guān)鍵字提取
20211029
用計(jì)算機(jī)模擬計(jì)算就是寫一個(gè)def函數(shù)
計(jì)算需求價(jià)格彈性系數(shù)的時(shí)候
如果事物本身存在持續(xù)增長(zhǎng)的情況下
需要先考慮本身的增長(zhǎng)
比如火車客運(yùn)量,但是藥物明顯不存在這種情況
要試圖得到某個(gè)因素對(duì)結(jié)果造成的影響,可以先把其他因素置為相同 比如求需求價(jià)格彈性 可以只考慮年度的數(shù)據(jù) 這樣就忽略了促銷,年度,節(jié)假日的影響
或者通過減的方式排除某個(gè)影響 推薦系統(tǒng)過濾
或者通過除以相同分母的方式,比如歸一化
單位價(jià)格變化率對(duì)應(yīng)的需求變化率
為什么不是直接的需求變化絕對(duì)量除以價(jià)格變化的絕對(duì)量
pi剛開始也是參數(shù),就像求梯度一樣
最后再代入具體的數(shù)值
20211027
權(quán)重的意義可以解釋為敏感度
比如
需求=權(quán)重*價(jià)格
權(quán)重為負(fù)值,價(jià)格越高,需求越小
20211016
反映市場(chǎng)狀態(tài)的指標(biāo) 零售價(jià)格指數(shù)和時(shí)點(diǎn)存銷比
基于貝葉斯網(wǎng)絡(luò)的卷煙市場(chǎng)狀態(tài)監(jiān)測(cè)的研究與應(yīng)用
論文
機(jī)器學(xué)習(xí)融入時(shí)間序列模型
把準(zhǔn)確率序列最后通過Arima來(lái)預(yù)測(cè)
20211003
層次softmax減少計(jì)算量
通過huffman樹把預(yù)測(cè)標(biāo)簽總數(shù)減少了 預(yù)測(cè)的是每個(gè)父節(jié)點(diǎn)而不再是根節(jié)點(diǎn)
單詞越多減少量越明顯
20210925
當(dāng)?shù)貌坏骄唧w的解的表達(dá)式的時(shí)候 用梯度下降或者泰勒二階展開來(lái)求解
梯度下降可能面臨的缺點(diǎn)
解決梯度下降的問題
adboost 整體就是利用前向分布算法實(shí)現(xiàn)的損失函數(shù)優(yōu)化
特征域
高一層抽象 多一層分組以此來(lái)區(qū)分不同的事務(wù)
20210924
看到這種形式就要想到是兩個(gè)矩陣相乘
xT不變表示 每次點(diǎn)積X都不變,y變化 xy1+xy2+x*y3
x和j沒有關(guān)系 所以可以直接拖出來(lái)
XT T表示X的組成以行向量表示
09 9.SVD++
視頻
矩陣分解隱向量和深度學(xué)習(xí)embedding其實(shí)可以看成是同一個(gè)東西
通過這種方式 引入其他物品相互間的影響因素
梯度下降最優(yōu)化使用的場(chǎng)景
1.當(dāng)公式直接計(jì)算的時(shí)候存在各種現(xiàn)實(shí)的限制條件的時(shí)候
比如矩陣稀疏,矩陣規(guī)模大,極值多,缺失值多的時(shí)候就可以考慮
用梯度下降來(lái)慢慢接近答案 就沒有了上面這些煩惱
減少每個(gè)人主觀的評(píng)判差異 各自每次的實(shí)際值減去其自身所有值的平均值只考察偏差
要?dú)w一化就是所有的情況求和做分母或者最大值做分母
20210825
20210514
統(tǒng)一兩種寫法
20210420
rear = (rear + 1) % maxSize;取模可以模擬以maxsize做循環(huán)操作
20210401
要考察企業(yè)成長(zhǎng)性
根據(jù)已有的,已公開的信息統(tǒng)計(jì)各種指標(biāo)的曲線
然后再映射去套要預(yù)測(cè)的企業(yè)
20210315
計(jì)算信息增益時(shí)對(duì)采樣的Z2樣本的梯度數(shù)據(jù)乘以(1-n)/m(目的是不改變?cè)瓟?shù)據(jù)的分布)
假設(shè)原來(lái)是10個(gè)
a 取 2個(gè)
剩下的取8個(gè)
也就是兩個(gè)集合數(shù)目加起來(lái)還是總數(shù) 不改變最后的訓(xùn)練例子總數(shù)
20210116
n的位置可以移動(dòng) 可以作為 b-a除以n
也可以說是后面部分求均值
20201213
log 使值變大 比如 0.001,0.002 等 也是把相乘變成相加
負(fù)數(shù)加上底數(shù) 使其取值變到坐標(biāo)軸的上半部分 更容易觀看
perplexity
20201108
????????
根據(jù)概率采樣
20201014
https://haokan.baidu.com/v?vid=15284978659146216535&pd=bjh&fr=bjhauthor&type=video
第一行的1 表示 0結(jié)點(diǎn)到1結(jié)點(diǎn)的距離
第三行 的 3 表示 2號(hào)結(jié)點(diǎn)到0號(hào)結(jié)點(diǎn)的距離
第三行的 4 的位子 表示 2號(hào)結(jié)點(diǎn)到0號(hào)結(jié)點(diǎn)的位置 這里已經(jīng)被覆蓋過一次
20200927
除以總數(shù)肯定就是平均了
20200925
除以 歸一化的作用、
歧義消除
log2 化成二進(jìn)制
20200923
同號(hào)取交和異號(hào)取強(qiáng)
第二個(gè)式子 分母 相當(dāng)于 0-P(H)
兩個(gè)式子都是表示最大范圍 也就是把整個(gè)值限定在
(0,1)之間
可信度
20200902
估計(jì)算法效率
離散數(shù)學(xué)
20200809
NP難問題 通過近似求解
20200728
Hyman分別測(cè)試法
https://blog.csdn.net/weixin_42194284/article/details/93898281
捕獲再捕獲抽樣是用于生態(tài)學(xué)以及估計(jì)野生動(dòng)物總體數(shù)量的一種抽樣方法。其基本方法是從總體中抽取一個(gè)樣本,做上記號(hào)以后放回總體,使之與原總體的單位均勻地混合,經(jīng)過適當(dāng)?shù)臅r(shí)間,再?gòu)闹谐槿∫粋€(gè)樣本。根據(jù)已做記號(hào)與未做記號(hào)的比率來(lái)推斷總體的數(shù)量 [1] 。
估計(jì)
抽樣出的真實(shí)故障除以總的真實(shí)故障總數(shù) 等于 抽樣出的植入故障數(shù)除以植入的故障總數(shù)
溫度放大信息,親自動(dòng)手算一下
20200607
今天早上想到兩種情形,不能依靠相鄰詞的概率排除歧義義項(xiàng)。第一種是“我花了8000元買了個(gè)蘋果”,第二種是“小李很喜歡他的蘋果”。這兩種都比較難確定“蘋果”是水果還是手機(jī)?特別是第二種,需要依靠上下文前面的“小李擁有兩個(gè)手機(jī)”來(lái)判斷,兩句話的距離可能比較遠(yuǎn),而且要在小李的擁有物之內(nèi),把蘋果與手機(jī)關(guān)聯(lián)起來(lái),人雖然容易做到,電腦想依靠數(shù)學(xué)或算法來(lái)做可真是頭痛。還好靈感發(fā)現(xiàn),我五分鐘之后就想到了辦法。
第一種情形,只要寫兩個(gè)語(yǔ)義正則表達(dá)式,“Q:* 蘋果 * num 元 * A:num:TP@TOTOAL”,“Q:* num 元 * 蘋果 * A:num:TP@TOTOAL”,再用這個(gè)模板上語(yǔ)料庫(kù)搜到八句num數(shù)值最接近的句子,再計(jì)算所得到的八個(gè)整句(TP@TOTOAL)里面所有的名詞動(dòng)詞與水果和手機(jī)的關(guān)聯(lián)度,可以排除歧義義項(xiàng)了。
第二種情形更復(fù)雜一點(diǎn),就用以下語(yǔ)句訓(xùn)練出一個(gè)語(yǔ)義模板:
“Q:小明擁有兩個(gè)手機(jī) A:小明 手機(jī)”,
“Q:小明買了一個(gè)手機(jī) A:小明 手機(jī)”,
“Q:*送給小明一個(gè)手機(jī) A:小明 手機(jī)”,
“Q:小明手上有兩個(gè)手機(jī) A:小明 手機(jī)”,
“Q:小明的手機(jī) A:小明 手機(jī)”,
“Q:小朱擁有兩個(gè)玩具 A:小朱 玩具”,
“Q:小朱買了一個(gè)玩具 A:小朱 玩具”,
“Q:*送給小朱一個(gè)玩具 A:小朱 玩具”,
“Q:小朱手上有兩個(gè)玩具 A:小朱 玩具”,
“Q:小朱的玩具 A:小朱 玩具”,
有了這個(gè)語(yǔ)義模板以后,遇到可以確定擁有物的語(yǔ)句,就可以輸出所有者與擁有物這兩個(gè)詞。用它來(lái)處理上下文,就能找到小李的所有擁有物,計(jì)算這些擁有物與水果和手機(jī)的關(guān)聯(lián)度,可以排除歧義義項(xiàng)了。
詞嵌入算關(guān)聯(lián)度?
@勁風(fēng)的味道 內(nèi)部編輯了一個(gè)語(yǔ)義庫(kù),部分借鑒了hownet
【活躍】旭日東升 2020/6/7 14:39:20
關(guān)聯(lián)度,反義度是我獨(dú)有的,hownet基本沒有
14:43:43
【潛水】勁風(fēng)的味道 2020/6/7 14:43:43
能一句話概括一下idea嗎
抽煙,香煙,尼古丁都是關(guān)聯(lián)詞,一般是相鄰句子里共現(xiàn)多的,或者是詞的一部分例如抽煙與煙,或者有從屬關(guān)系的。
知識(shí) 信息 數(shù)據(jù)
解釋過程
20200510
How do you compare two probability distributions? We simply subtract one from the other. For more details, look atcross-entropy and Kullback–Leibler divergence.
簡(jiǎn)單的考察分布
公式構(gòu)造
思路
最簡(jiǎn)單的加減乘除著手
F(x)=(1-x)a+bx
當(dāng)x等于1的時(shí)候要消去變量a 就讓x減去1 這個(gè)值再乘以 a
當(dāng)x等于0的時(shí)候要消去變量b
公式構(gòu)造
乘以零 消去
減法 用于抵消某東西的影響
懲罰
softmax 可以是值大的更大,小的更小
bert 各層結(jié)構(gòu)的作用
bert
bert masked
動(dòng)態(tài)排序
動(dòng)態(tài)排序 中間兩個(gè)優(yōu)先 邊上兩個(gè)滯后
八格游戲
通用規(guī)則和特殊規(guī)則相結(jié)合
需求發(fā)現(xiàn):可以參看北京大學(xué)的軟件工程
總結(jié)
- 上一篇: “Attention is All Yo
- 下一篇: 深度学习各种框架