Linux下动态链接库so文件覆盖导致coredump
1.為什么cp的方式更新運(yùn)行中進(jìn)程的so,程序會(huì)coredump
????? 2.采用什么方式更新已經(jīng)加載了的so,就可以避免coredump
我們的公共組件絕大部分都支持so形式的自定義插件,比如s++,qzhttp,ttc。在不停進(jìn)程更新so的時(shí)候往往會(huì)產(chǎn)生coredump,并且肯定core得莫名其妙,core得讓人心碎。
先看一下用cp的方式更新so的時(shí)候發(fā)生了什么事情
strace cp new.so old.so #strace是人間利器
發(fā)現(xiàn)老的so被trunc了,這個(gè)過程發(fā)生的具體的事情是:
????? 1.應(yīng)用程序通過dlopen打開so的時(shí)候,kernel通過mmap把so加載到進(jìn)程地址空間,對(duì)應(yīng)于vma里的幾個(gè)page.
????? 2.在這個(gè)過程中l(wèi)oader會(huì)把so里面引用的外部符號(hào)例如malloc printf等解析成真正的虛存地址。
????? 3.當(dāng)so被cp覆蓋時(shí),確切地說是被trunc時(shí),kernel會(huì)把so文件在虛擬內(nèi)的頁purge 掉。
????? 4.當(dāng)運(yùn)行到so里面的代碼時(shí),因?yàn)槲锢韮?nèi)存中不再有實(shí)際的數(shù)據(jù)(僅存在于虛存空間內(nèi)),會(huì)產(chǎn)生一次缺頁中斷。
????? 5.Kernel從so文件中copy一份到內(nèi)存中去,a)但是這時(shí)的全局符號(hào)表并沒有經(jīng)過解析,當(dāng)調(diào)用到時(shí)就產(chǎn)生segment fault ,? b)如果需要的文件偏移大于新的so的地址范圍,就會(huì)產(chǎn)生bus error.
所以,如果用相同的so去覆蓋
????? A) 如果so 里面依賴了外部符號(hào),coredump
????? B) 如果so里面沒有依賴外部符號(hào),運(yùn)氣不錯(cuò),不會(huì)coredump
所有問題的產(chǎn)生都是因?yàn)閟o被trunc了一把,所以如果不用turnc的方式就避免這個(gè)問題。Ok,該我們的install 上場(chǎng)了。
strace install new.so old.so
install 的方式跟cp不同,先unlink再creat,當(dāng)unlink的時(shí)候,已經(jīng)map的虛擬空間vma中的inode結(jié)點(diǎn)沒有變,只有inode結(jié)點(diǎn)的引用計(jì)數(shù)為0是,kernel才把它干掉。
也就是新的so和舊的so用的不是同一個(gè)inode結(jié)點(diǎn),所以不會(huì)相互影響。這時(shí)只有得啟程序才會(huì)使用到新的so。所以采用這種方式的話就可以避免先stop進(jìn)程,更新so,再重啟進(jìn)程這樣比較耗時(shí)的操作。
總結(jié)
以上是生活随笔為你收集整理的Linux下动态链接库so文件覆盖导致coredump的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么cp新的so文件替换老的so,程序
- 下一篇: inet_aton和inet_netwo