日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Scala-Spark digamma stackoverflow问题

發布時間:2023/12/13 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Scala-Spark digamma stackoverflow问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這兩天在用spark做點擊率的貝葉斯平滑,參考雅虎的論文進行了一番嘗試。

先上代碼:

1 # click_count, show_count # this method takes time 2 def do_smooth(data_list): 3 import scipy.special as sp 4 a, b, i = 1.0, 1.0, 0 5 da, db = a, b 6 while i < 1000 and (da > 1.0E-10 or db > 1.0E-10): 7 x1, y1, x2 = 0.0, 0.0, 0.0 8 for lineList in data_list: 9 x1 += sp.digamma((lineList[0]) + a) - sp.digamma(a) 10 y1 += sp.digamma((lineList[1]) + a + b) - sp.digamma(a + b) 11 x2 += sp.digamma((lineList[1]) - (lineList[0]) + b) - sp.digamma(b) 12 na, nb = a, b 13 a *= (x1 / y1) 14 b *= (x2 / y1) 15 da, db = abs(a - na), abs(b - nb) 16 i += 1 17 print i, a, b 18 return a, b

?

這是我之前用的python代碼,改成scala也相當容易,digamma函數非常耗時,而且還要迭代1000次。最要命的是digamma在scala里面默認的實現會出現棧溢出!!!

var a, b, da, db: Double = 1.0 var index = 0 while (index < 1000 && (da > 1.0E-9 || db > 1.0E-9)) {var x1,x2,y1 = 0.0traindata.foreach(p => {x1 += MBlas.digamma(p(2) + a) - MBlas.digamma(a)y1 += MBlas.digamma(p(1) + a + b) - MBlas.digamma(a + b)x2 += MBlas.digamma(p(1) - p(2) + b) - MBlas.digamma(b)val na = aval nb = ba *= (x1 / y1)b *= (x2 / y1)da = Math.abs(a - na)db = Math.abs(b - nb)}) }

?

digamma 函數是個遞歸函數,問題就處在遞歸上了。

1 public static double digamma(double x) { 2 if (x > 0 && x <= S_LIMIT) { 3 return -GAMMA - 1 / x; 4 } 5 if (x >= C_LIMIT) { 6 double inv = 1 / (x * x); 7 return FastMath.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252)); 8 } 9 return digamma(x + 1) - 1 / x; 10 }

?

既然知道問題所在,是不是就可以重寫遞歸為非遞歸呢?在Stack Overflow上找到了一個答案

1 val GAMMA = 0.577215664901532860606512090082 2 val GAMMA_MINX = 1.e-12 3 val DIGAMMA_MINNEGX = -1250 4 val C_LIMIT = 49 5 val S_LIMIT = 1e-5 6 var value = 0.0 7 var x = input 8 while (true) { 9 if (x >= 0 && x < GAMMA_MINX) x = GAMMA_MINX 10 if (x < DIGAMMA_MINNEGX) { 11 x = DIGAMMA_MINNEGX + GAMMA_MINX 12 } else { 13 if (x > 0 && x <= S_LIMIT) return value + -GAMMA - 1 / x 14 if (x >= C_LIMIT) { 15 val inv = 1 / (x * x) 16 return value + Math.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252)) 17 } 18 value = value - 1.0 / x 19 x += 1 20 } 21 }

?

經測試,沒看出什么問題,可以用了。
不過,上面的代碼并沒有解決慢的問題,當需要計算CTR的對象比較多時(幾百萬),仍然比較耗時。所以我決定用兩個替代方法:

  • 抽樣,抽取能在可接受時間內出結果的樣本數,得到α和β;
  • 直接使用平均值作為α和β
  • 使用平均值做迭代初值(推薦)
  • 參考:
    1. 雅虎專家的論文,如上
    2. Stack Overflow 網友代碼,如上

    ?

    轉載于:https://www.cnblogs.com/longwind09/p/7588324.html

    總結

    以上是生活随笔為你收集整理的Scala-Spark digamma stackoverflow问题的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。