高维、相依和不完全数据的统计分析(二)
轉(zhuǎn)自:http://i.mtime.com/920665/blog/5653335/
我國的統(tǒng)計(jì)學(xué)起步較晚。解放前只有以許寶祿先生為代表的少數(shù)幾位統(tǒng)計(jì)學(xué)者,他們是四十年代從國外回來的。解放后,特別是在1956年的國家科學(xué)發(fā)展規(guī)劃的推動(dòng)下,統(tǒng)計(jì)學(xué)有了較大的發(fā)展。改革開放以來,統(tǒng)計(jì)學(xué)有了新的發(fā)展,從事統(tǒng)計(jì)學(xué)研究、應(yīng)用和教學(xué)的隊(duì)伍壯大了許多,先后成立了四個(gè)全國性學(xué)術(shù)團(tuán)體,出版了幾種專業(yè)刊物,北京大學(xué)等七所綜合性或理工科大學(xué)成立了統(tǒng)計(jì)系(或概率統(tǒng)計(jì)系等),有近百所財(cái)經(jīng)類高校設(shè)有統(tǒng)計(jì)系或統(tǒng)計(jì)專業(yè);統(tǒng)計(jì)學(xué)的研究水平不斷提高,應(yīng)用范圍不斷擴(kuò)大。我國的統(tǒng)計(jì)工作者在理論和應(yīng)用研究方面也取得了豐碩的成果,不少成果達(dá)到國際先進(jìn)、甚至領(lǐng)先水平。這里僅簡(jiǎn)要列舉與該方向有關(guān)的成果。由于時(shí)間所限,未能全面收集有關(guān)情況,定有疏漏和不當(dāng)之處,敬請(qǐng)?jiān)彙?br />經(jīng)典統(tǒng)計(jì)學(xué)中與高維數(shù)據(jù)分析直接相關(guān)的是多元分析和線性模型的統(tǒng)計(jì)分析。早在四、五十年代,這方面的理論研究還處在早期階段,我國統(tǒng)計(jì)學(xué)家許寶祿先生獲得了一系列開創(chuàng)性研究成果,是國際上公認(rèn)的奠基人之一。改革開放以來,我國有不少學(xué)者從事這方面的研究,成果也很多。例如,中國科學(xué)院研究生院陳希孺和中國科學(xué)技術(shù)大學(xué)趙林城比較系統(tǒng)地研究了多元線性回歸的LS、和M估計(jì)的相合性、漸近正態(tài)性和線性表示等大樣本性質(zhì),在一些情況下得到了或幾乎得到了充分必要條件,有的問題得到了精確的階估計(jì)和理想的界限。他們的成果在國際上有較大反響和許多引用,國際著名統(tǒng)計(jì)學(xué)家、美國科學(xué)院院士C.R.Rao等在專著中把他們的主要成果列為6條定理。此外,中國科學(xué)院應(yīng)用數(shù)學(xué)所方開泰和上海財(cái)經(jīng)大學(xué)張堯庭等在橢球總體的多元分析方面,中國科學(xué)院系統(tǒng)科學(xué)所吳啟光和北京理工大學(xué)徐興忠等在多種線性模型估計(jì)的容許性和其他統(tǒng)計(jì)決策問題方面,北京工業(yè)大學(xué)王松桂在線性回歸的估計(jì)方面,以及東北師范大學(xué)史寧中在有約束的線性模型方面也都有不少好成果。
比線性模型復(fù)雜的多元模型是非線性參數(shù)模型、半?yún)?shù)和非參數(shù)模型。在這些模型的理論方面我國統(tǒng)計(jì)學(xué)者也有許多工作。例如,中國科學(xué)院系統(tǒng)科學(xué)所成平等在研究半?yún)?shù)模型的漸近有效估計(jì)方面,陳希孺、趙林城和安徽大學(xué)陳桂景等在研究非參數(shù)回歸、密度估計(jì)和非參數(shù)判別方面,東南大學(xué)韋博成等在用微分幾何方法研究非線性(參數(shù))回歸方面,以及南京大學(xué)王金德在非線性回歸估計(jì)的漸近性質(zhì)方面均有一系列成果。在非參數(shù)理論的成果中,陳希孺和趙林城徹底解決了關(guān)于U統(tǒng)計(jì)量分布的非一致收斂速度問題,有關(guān)結(jié)果被美國《統(tǒng)計(jì)科學(xué)百科全書》以及美國和前蘇聯(lián)等出版的多本專著引述。
自助法等重抽樣方法也是一類非參數(shù)方法,主要是用來逼近那些無法從理論上給出的統(tǒng)計(jì)量分布及有關(guān)的量。北京大學(xué)鄭忠國及其合作者與美國D.B.Rubin獨(dú)立提出了一種與自助法功能相似的隨機(jī)加權(quán)法。他們?cè)诙喾N模型下研究了統(tǒng)計(jì)量的隨機(jī)加權(quán)逼近,結(jié)果表明該類方法無需重抽樣也能達(dá)到用自助法的效果,在有些情況下還優(yōu)于自助法。
有關(guān)多元統(tǒng)計(jì)模型的另一類重要問題是模型的統(tǒng)計(jì)診斷,目的是了解實(shí)際數(shù)據(jù)與選用的模型是否吻合。韋博城、人民大學(xué)吳喜之以及云南大學(xué)王學(xué)仁和石磊等在模型和數(shù)據(jù)的統(tǒng)計(jì)診斷方面有許多好成果。云南大學(xué)的學(xué)者還把他們的成果用于地質(zhì)探礦的數(shù)據(jù)分析等實(shí)際問題取得成功。解決數(shù)據(jù)與模型這一對(duì)矛盾的另一種途徑是使用對(duì)模型不敏感的統(tǒng)計(jì)方法,即當(dāng)模型與數(shù)據(jù)吻合或不太吻合時(shí)都能給出比較正確的結(jié)論,這就是穩(wěn)健統(tǒng)計(jì)方法。中國科學(xué)院系統(tǒng)科學(xué)所李國英和張健等在多元位置和散布陣的穩(wěn)健估計(jì)及其性質(zhì),位置M估計(jì)的崩潰性質(zhì)等方面也取得了一些好成果。
在多維試驗(yàn)設(shè)計(jì)方面,中國科學(xué)院數(shù)學(xué)所王元和應(yīng)用數(shù)學(xué)所方開泰引進(jìn)數(shù)論方法提出了均勻設(shè)計(jì),能用于缺乏使用正交設(shè)計(jì)條件的情況。該設(shè)計(jì)方法已在國內(nèi)的多個(gè)實(shí)際部門應(yīng)用,效果良好。這一工作在國際上也受到重視。南開大學(xué)張潤楚等在研究計(jì)算機(jī)試驗(yàn)設(shè)計(jì)方面也有一些好成果。
七十年代中期出現(xiàn)的投影尋蹤(projectionpursuit,簡(jiǎn)稱PP)技術(shù)是分析高維數(shù)據(jù)的較好方法,到八十年代初文獻(xiàn)中還很少有理論研究。中國科學(xué)院系統(tǒng)科學(xué)所成平和李國英領(lǐng)導(dǎo)的研究小組自八十年代中開始從事PP方法和理論的研究,構(gòu)造了一些分析高維數(shù)據(jù)的新方法,研究了PP統(tǒng)計(jì)量的漸近性質(zhì)和自助(Bootstrap)逼近,獲得了一系列重要結(jié)果。例如,成平、朱力行和張健研究了多種PP擬合優(yōu)度統(tǒng)計(jì)量尾概率的估計(jì),對(duì)有的統(tǒng)計(jì)量得到了精確的階,否定了前人的猜測(cè);李國英和施沛德等對(duì)兩類應(yīng)用普遍的PPU和PPL統(tǒng)計(jì)量作出了統(tǒng)一處理,研究了它們的漸近分布及其自助逼近;張健和成平給出了一個(gè)一般性結(jié)果,解決了大部分PP檢驗(yàn)的功效問題;李國英和張健等分別用PP技巧構(gòu)造了幾種多元質(zhì)量控制圖,比原有的控制圖提高了檢測(cè)效果。他們的工作曾多次在有關(guān)的國際學(xué)術(shù)會(huì)議上作邀請(qǐng)報(bào)告,受到國際同行的好評(píng),在國內(nèi)外文獻(xiàn)中引用較多。有些成果還在國內(nèi)的水文、氣象、醫(yī)學(xué)等方面得到了應(yīng)用,解決了用傳統(tǒng)方法難以處理的問題。
?
與相依數(shù)據(jù)的統(tǒng)計(jì)分析關(guān)系密切的是時(shí)間序列分析。在這方面我國學(xué)者也有很好的工作。北京大學(xué)江澤培是這方面最資深的學(xué)術(shù)帶頭人。改革開放以來,他和他的學(xué)生何書元等在多元平穩(wěn)序列的譜估計(jì)方面取得了一系列重要成果。有些成果還被北京大學(xué)謝衷潔、程乾生等應(yīng)用到天文、地質(zhì)和醫(yī)學(xué)等實(shí)際數(shù)據(jù)的分析,獲得了有價(jià)值的發(fā)現(xiàn)。中國科學(xué)院應(yīng)用數(shù)學(xué)所安鴻志在時(shí)間序列分析中的重對(duì)數(shù)律,自回歸的選元方法及其相容性,以及非線性和條件異方差模型的性質(zhì)等方面有不少重要成果,有些成果在國際上有較多引用,受到好評(píng)。
另一類重要的相依數(shù)據(jù)問題是統(tǒng)計(jì)信號(hào)處理。趙林城在信號(hào)檢測(cè)和疊加指數(shù)信號(hào)的估計(jì)及其性質(zhì)方面有不少好成果,受到國際同行的重視。他提出的一個(gè)信號(hào)檢測(cè)準(zhǔn)則被外國學(xué)者稱為有效檢測(cè)準(zhǔn)則,在文獻(xiàn)中多次被人引用和仿效。
在我國較早從事不完全數(shù)據(jù)分析研究的有北京大學(xué)陳家鼎和復(fù)旦大學(xué)鄭祖康。他們?cè)趧h失數(shù)據(jù)下的分布估計(jì)和參數(shù)估計(jì)理論方面作出了貢獻(xiàn)。近年來由于可靠性研究的需要,不完全數(shù)據(jù)的統(tǒng)計(jì)方法和理論取得了很大進(jìn)展。例如,陳家鼎及其合作者用樣本空間排序法對(duì)于可靠性中常用的壽命分布和一類增長模型,在多種不完全數(shù)據(jù)情況下導(dǎo)出了在一定意義下的最優(yōu)置信限。中國科學(xué)院系統(tǒng)科學(xué)所戴樹森、于丹、李國英等對(duì)于常用的壽命分布和不完全數(shù)據(jù)類型,以及可靠性結(jié)構(gòu)相當(dāng)一般的系統(tǒng),給出了利用部件數(shù)據(jù)對(duì)系統(tǒng)可靠度進(jìn)行綜合評(píng)估的方法,對(duì)部件數(shù)據(jù)樣本量的要求比前人的方法明顯減少,而且評(píng)估精度也提高了。北大和系統(tǒng)所的工作顯著推進(jìn)了前人的理論結(jié)果,在相當(dāng)程度上解決了中小樣本情況下,單部件和系統(tǒng)的可靠性評(píng)估問題,很有實(shí)用價(jià)值,受到國防工業(yè)部門的歡迎和贊賞。戴樹森、于丹、華東師范大學(xué)茆詩松以及上海師范大學(xué)費(fèi)鶴良等研究了不完全數(shù)據(jù)情況下加速壽命試驗(yàn)中的一些估計(jì)理論問題,有些成果已在電子元件篩選中得到應(yīng)用,取得了較大的經(jīng)濟(jì)效益。北京工業(yè)大學(xué)楊振海等關(guān)于無失效數(shù)據(jù)等可靠性中不完全數(shù)據(jù)的統(tǒng)計(jì)分析也有一些好成果。
近些年,我國還涌現(xiàn)出一批比較優(yōu)秀的年輕統(tǒng)計(jì)學(xué)者,在高維、相依和不完全數(shù)據(jù)的統(tǒng)計(jì)分析等方面獲得了可喜的成果。比較突出的有北京大學(xué)耿直、何書元、施沛德,中國科學(xué)院應(yīng)用數(shù)學(xué)所朱力行,系統(tǒng)科學(xué)所張健、于丹等。其中,耿直關(guān)于定性和不完全數(shù)據(jù)圖模型的研究,朱力行關(guān)于PP統(tǒng)計(jì)量尾概率和逆回歸理論的研究,張健關(guān)于PP理論、穩(wěn)健估計(jì)與檢驗(yàn)的崩潰性質(zhì)以及非參數(shù)回歸的研究,何書元關(guān)于不完全數(shù)據(jù)總體分布估計(jì)漸近性質(zhì)的研究,施沛德關(guān)于模型選擇問題的研究,以及于丹關(guān)于中小樣本下復(fù)雜系統(tǒng)可靠性評(píng)定和導(dǎo)彈貯存可靠性的研究及應(yīng)用均有不少好成果。此外,北京大學(xué)蔣建成,北京師范大學(xué)崔恒建,安徽大學(xué)胡舒合,中國科學(xué)院系統(tǒng)科學(xué)所石堅(jiān)和鄒國華,應(yīng)用數(shù)學(xué)所王啟華、周勇和陳敏,北京理工大學(xué)徐興忠,吉林大學(xué)宋立新,以及云南大學(xué)石磊和陳建寶等也有一些較好的工作。
總之,改革開放以來我國統(tǒng)計(jì)學(xué)有很大發(fā)展,但總的說來,我國的統(tǒng)計(jì)學(xué)與發(fā)達(dá)國家相比差距還較大。首先,與我國經(jīng)濟(jì)和科技發(fā)展對(duì)統(tǒng)計(jì)學(xué)的需求相比,與一個(gè)十多億人口的大國相比,我國統(tǒng)計(jì)學(xué)的隊(duì)伍還很小;其次,統(tǒng)計(jì)學(xué)的應(yīng)用遠(yuǎn)沒有達(dá)到應(yīng)有的程度。有很多能夠應(yīng)用統(tǒng)計(jì)學(xué)的行業(yè)領(lǐng)域,還不大了解統(tǒng)計(jì)學(xué)。因此在我國大力發(fā)展統(tǒng)計(jì)學(xué)非常重要。事實(shí)上,早在1984年,國務(wù)院[國發(fā)(1984)7號(hào)]文件《關(guān)于加強(qiáng)統(tǒng)計(jì)工作的決定》就指出“我國要實(shí)現(xiàn)工業(yè)、農(nóng)業(yè)、科學(xué)技術(shù)和國防現(xiàn)代化,必須實(shí)現(xiàn)統(tǒng)計(jì)工作現(xiàn)代化”,“中國科學(xué)院要加強(qiáng)數(shù)理統(tǒng)計(jì)研究機(jī)構(gòu),要集中一批專門人材,開展統(tǒng)計(jì)科學(xué)研究,盡快提高我國統(tǒng)計(jì)學(xué)水平”。筆者深切感到我國統(tǒng)計(jì)工作者任重道遠(yuǎn)。從戰(zhàn)略上講,我們需要大力發(fā)展統(tǒng)計(jì)教育,培養(yǎng)不同層次的統(tǒng)計(jì)學(xué)人才,擴(kuò)大統(tǒng)計(jì)學(xué)隊(duì)伍,提高研究水平;還需要在一切能應(yīng)用統(tǒng)計(jì)學(xué)的部門與行業(yè)普及統(tǒng)計(jì)知識(shí),使之成為實(shí)際部門的有力工具。這不僅將加速實(shí)際領(lǐng)域的發(fā)展,而且使我國統(tǒng)計(jì)學(xué)的發(fā)展有更廣闊的土壤和更強(qiáng)勁的動(dòng)力。但這些已超出了本文的范圍,這里暫不討論。
三
如前所述,現(xiàn)代科學(xué)技術(shù)的前沿領(lǐng)域和社會(huì)經(jīng)濟(jì)的重大問題提出了許多高維、相依和不完全等復(fù)雜數(shù)據(jù)的分析處理問題,以下僅就筆者的個(gè)人認(rèn)識(shí),扼要講述有關(guān)這方面的一些值得注意的研究動(dòng)向。
(1)統(tǒng)計(jì)模型
統(tǒng)計(jì)模型是對(duì)數(shù)據(jù)內(nèi)在規(guī)律性的數(shù)學(xué)描述,數(shù)據(jù)的復(fù)雜性必然帶來模型的復(fù)雜化。以描述變量之間關(guān)系的回歸分析為例,經(jīng)典的統(tǒng)計(jì)模型是線性回歸函數(shù)和獨(dú)立同分布正態(tài)誤差。由于所研究的客觀現(xiàn)象越來越復(fù)雜,要求也越來越精細(xì),回歸函數(shù)已從線性發(fā)展到各種非線性回歸函數(shù)、廣義線性、部分線性、比例危險(xiǎn)率等半?yún)?shù)回歸函數(shù),以及可加、廣義可加和完全非參數(shù)等非參數(shù)回歸函數(shù);誤差模型也發(fā)展到獨(dú)立不同分布的正態(tài)誤差和污染誤差等參數(shù)和半?yún)?shù)模型,獨(dú)立不同分布的對(duì)稱誤差、相依弱結(jié)構(gòu)誤差等半?yún)?shù)和非參數(shù)模型。類型的情況在統(tǒng)計(jì)學(xué)的各個(gè)分支都存在。近些年研究較多的統(tǒng)計(jì)模型還有:分層模型、多重線性模型、潛馬氏鏈模型、間接可加模型、網(wǎng)絡(luò)圖模型、時(shí)空序列模型和條件異方差模型等等。這些模型大多是在研究某類實(shí)際問題中提出,后來被推廣到更多的領(lǐng)域,成為有一定普遍性的統(tǒng)計(jì)模型。還有一種情況,特別是較新領(lǐng)域中的數(shù)據(jù),由于我們對(duì)該領(lǐng)域所知甚少,只好用半?yún)?shù)甚至非參數(shù)模型。近十多年半?yún)?shù)和非參數(shù)模型的統(tǒng)計(jì)方法和理論有很多討論。總之,由于人類所研究的問題和現(xiàn)象越來越復(fù)雜,所遇到的數(shù)據(jù)和相應(yīng)的模型也將越來越復(fù)雜。對(duì)于實(shí)際中出現(xiàn)的各種復(fù)雜數(shù)據(jù),找出和建立適當(dāng)?shù)哪P?#xff0c;并針對(duì)不同的模型研究有效的統(tǒng)計(jì)分析、推斷方法及其理論是統(tǒng)計(jì)學(xué)永遠(yuǎn)要面對(duì)的挑戰(zhàn),也是它取之不盡、用之不竭的發(fā)展動(dòng)力。
(2)模型選擇、統(tǒng)計(jì)診斷和穩(wěn)健方法
進(jìn)行統(tǒng)計(jì)分析與推斷的第一步,就是對(duì)手中的數(shù)據(jù)建立適當(dāng)?shù)哪P汀?duì)于一組數(shù)據(jù),往往有好多類模型可供選擇;在同一類模型中,還要確定變量個(gè)數(shù)或某種“階數(shù)”,這就是所說的模型選擇。然后才是進(jìn)一步的統(tǒng)計(jì)推斷,即參數(shù)的點(diǎn)估計(jì)、區(qū)間估計(jì)或假設(shè)檢驗(yàn)等。早期的模型選擇主要是線性回歸中自變量的選取,方法也局限于最小二乘法導(dǎo)出的統(tǒng)計(jì)量和AIC準(zhǔn)則等。隨著數(shù)據(jù)和模型的復(fù)雜化,模型選擇問題更為重要。面對(duì)一組數(shù)據(jù),特別是一組新領(lǐng)域的復(fù)雜數(shù)據(jù),往往有數(shù)十類模型可供選擇。這里最為困難的是選擇哪一類模型,其次是在這一類模型中,選擇其“階數(shù)”或變量。到目前為止,對(duì)前一個(gè)問題還極少有討論。關(guān)于后一個(gè)問題,雖然取得了許多重要進(jìn)展,但仍有許多方法和理論問題尚待解決,特別是關(guān)于時(shí)空序列、高階馬氏鏈和隱馬氏鏈的定階,以及廣義線性模型、生長曲線模型、含誤差的變量和協(xié)變量模型(EV模型)中的變量選取等較復(fù)雜的模型選擇問題。模型選擇問題在理論和應(yīng)用上都很重要,是研究較多且有可能取得突破的研究方向。
統(tǒng)計(jì)診斷是研究所選定的模型與數(shù)據(jù)是否符合,找出明顯與模型不符的情況,包括少數(shù)“離群點(diǎn)”,對(duì)推斷結(jié)果影響大的“杠桿點(diǎn)”,以及其它不符合模型假定的地方(例如,常用的模型假定有:誤差等方差,回歸函數(shù)為線性等)。穩(wěn)健方法則是從另一個(gè)角度解決模型與數(shù)據(jù)的關(guān)系問題,即研究在模型與數(shù)據(jù)相符或者不很相符(即少有偏離)的情況,都能給出比較符合實(shí)際的推斷結(jié)果的統(tǒng)計(jì)方法。統(tǒng)計(jì)診斷和穩(wěn)健統(tǒng)計(jì)方法是在過去的三十多年里發(fā)展起來的統(tǒng)計(jì)分析方法,由于許多方法計(jì)算十分復(fù)雜,其發(fā)展曾一度減緩。近些年,隨著計(jì)算機(jī)的快速發(fā)展和普及,這兩個(gè)方向又再次受到的重視,對(duì)于比較復(fù)雜模型(參見前面的(1),(2)),的統(tǒng)計(jì)診斷和穩(wěn)健方法,包括相應(yīng)的理論問題研究較多。而且,新的數(shù)據(jù)類型和新的模型不斷出現(xiàn),需要研究新的診斷和穩(wěn)健方法、算法及理論。
(3)降維技術(shù)
一方面由于高維數(shù)據(jù)分析十分困難,另一方面高維數(shù)據(jù)中的信息往往主要包含在一個(gè)或幾個(gè)低維結(jié)構(gòu)中,因此降維是分析高維數(shù)據(jù)的一個(gè)重要手段。傳統(tǒng)的主成分分析,Fisher判斷等都屬于降維方法,但它們只適用于有線性結(jié)構(gòu)的簡(jiǎn)單數(shù)據(jù)。七十年代中開始的投影尋蹤是具有一定普遍意義的較好的降維技術(shù),九十年代初提出的切片逆回歸也是一種降維方法。近幾年關(guān)于投影尋蹤和其他降維方法討論較多。這里有幾個(gè)難點(diǎn):(I)怎樣針對(duì)一類實(shí)際問題確定尋找低維結(jié)構(gòu)的準(zhǔn)則;(II)如何判斷所找到的低維結(jié)構(gòu)是否真實(shí);(III)計(jì)算問題,因?yàn)檎嬲捎糜诟呔S復(fù)雜數(shù)據(jù)的降維方法(例如投影尋蹤)計(jì)算量都很大,而且往往不能一步到位,需要多次反復(fù)。
(4)計(jì)算密集型方法
統(tǒng)計(jì)量及其分布是進(jìn)行推斷的基礎(chǔ)。在許多復(fù)雜情況,所需要的統(tǒng)計(jì)量沒有顯表達(dá)式,有時(shí)即使有也很難計(jì)算。對(duì)此,往往提出適當(dāng)?shù)乃惴ń柚?jì)算機(jī)求出所需要的量。而且,除了少量較簡(jiǎn)單的參數(shù)模型外,無法得到統(tǒng)計(jì)量在有限樣本情況的精確分布(或某些分布特征),而這是進(jìn)行統(tǒng)計(jì)推斷的關(guān)健。雖然許多情況有大樣本下的漸近分布,但在實(shí)際中用它作統(tǒng)計(jì)推斷精度較差,不能滿足要求。由此近二、三十年產(chǎn)生了許多計(jì)算密集型方法,以得到所需要的統(tǒng)計(jì)量、統(tǒng)計(jì)量的近似分布或分布特征,或給出比基于大樣本理論精度更高的推斷結(jié)果。例如EM算法及其各種推廣、投影尋蹤技術(shù)、偏最小二乘法(Partial leastsquare)、自助法、重要抽樣和馬氏鏈蒙特卡洛(MCMC)等。其中有些方法,例如,偏最小二乘和MCMC等,首先出現(xiàn)在某個(gè)實(shí)際領(lǐng)域,后來被統(tǒng)計(jì)學(xué)家注意,并推廣發(fā)展成具有一般性的方法。當(dāng)前,還有一些處理和分析復(fù)雜數(shù)據(jù)的方法,已經(jīng)在某些實(shí)際領(lǐng)域中應(yīng)用,例如神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、數(shù)據(jù)采掘、數(shù)據(jù)庫知識(shí)發(fā)展和獨(dú)立成分分析等。一些統(tǒng)計(jì)學(xué)家已經(jīng)開始參與這些方法的研究。這應(yīng)該是一個(gè)非常值得重視的領(lǐng)域。
(5)似然方法
在參數(shù)模型的統(tǒng)計(jì)推斷中,似然方法(極大似然估計(jì)和似然比檢驗(yàn)等)占有十分重要的地位。近二、三十年,參數(shù)模型的似然方法有許多發(fā)展,出現(xiàn)了擬似然、偏似然、條件似然和懲罰似然等新方法。其中基于近似輔助統(tǒng)計(jì)量和條件似然的條件推斷尤為引人注目。然而在半?yún)?shù)和非參數(shù)模型下,極大似然估計(jì)和似然比檢驗(yàn)統(tǒng)計(jì)量或者不存在,或者很難計(jì)算。這一困難近十年左右已有所突破。其中比較突出的是Sieve似然方法和利用各種輔助信息的經(jīng)驗(yàn)似然方法。在一些相對(duì)簡(jiǎn)單的情況已獲得成功,并得到了一些理論成果。但總的說來,這方面的研究還在開始階段,有許多復(fù)雜情況還有待研究。例如,似然方法在半?yún)?shù)和非參數(shù)情況,能不能達(dá)到簡(jiǎn)單參數(shù)情況的優(yōu)良性質(zhì)?怎么才能達(dá)到?這些問題均是研究的焦點(diǎn)。
(6)小樣本問題與信息融合
在高新技術(shù)和國防科技中,由于產(chǎn)品價(jià)格和試驗(yàn)費(fèi)用十分昂貴,在各種環(huán)境條件下所獲得的試驗(yàn)數(shù)據(jù)中,能作為來自同總體樣本的樣本量相當(dāng)小,而且大部分是不完全數(shù)據(jù)。在許多復(fù)雜問題中,樣本量的絕對(duì)數(shù)也許不算小,但相對(duì)于數(shù)據(jù)的維數(shù),或者參數(shù)個(gè)數(shù)而言,樣本量就相當(dāng)小了。對(duì)這樣一些問題,經(jīng)典的精確統(tǒng)計(jì)方法大多不適用,而大樣本理論的統(tǒng)計(jì)推斷又精度較差。于是近二、三十年出現(xiàn)了自助法、隨機(jī)逼近、鞍點(diǎn)逼近和其他高階漸近逼近的方法。對(duì)于較復(fù)雜的數(shù)據(jù)和模型,基于樣本量較小的數(shù)據(jù)本身,給出盡可能精確的統(tǒng)計(jì)推斷,仍然是一個(gè)重要的研究方向。另一方面,在實(shí)際問題中除了來自所研究的總體的直接數(shù)據(jù)之外,還可能有其他一些與之有關(guān)的數(shù)據(jù),也包含一些有關(guān)所研究總體的信息。如何把這些數(shù)據(jù)充分利用起來,對(duì)于小樣本問題是十分重要的。貝葉斯分析是融合不同來源信息的較好方法。問題在于如何客觀地確定先驗(yàn)分布,即避免先驗(yàn)分布中的主觀成分。這就是近些年討論較多的客觀貝葉斯方法。
著名統(tǒng)計(jì)學(xué)家B. Efron(Statistical Science,13(1998),95-122)認(rèn)為,信仰(Fiducial)方法有可能在客觀貝葉斯分析中起重要作用。信仰方法是由A. R.Fisher于二十世紀(jì)三十年代提出,它是在沒有先驗(yàn)信息的情況下,對(duì)參數(shù)給出類似于后驗(yàn)分布的信仰分布。但該方法遇到很多困難,沒有發(fā)展起來,而被認(rèn)為是Fisher的一大失誤。Efron認(rèn)為,信仰方法有可能在較復(fù)雜的問題中給出較好的近似信仰分布,從而有可能進(jìn)行客觀的貝葉斯分析。顯然他把 Bayes推斷和 Fiducial推斷結(jié)合起來了。面對(duì)越來越大、越來越難、越來越復(fù)雜的實(shí)際問題,人們必然需要多種推斷方法,以及它們之間合理、有效的結(jié)合,并根據(jù)不同的實(shí)際問題,選用適當(dāng)?shù)耐茢嘣砗头椒ā_@里有許多需要深入研究的基礎(chǔ)性問題。
結(jié)束語現(xiàn)代科學(xué)技術(shù)和社會(huì)經(jīng)濟(jì)中的課題,一般都是交叉性綜合性的,要涉及多個(gè)學(xué)科領(lǐng)域。同樣,在其數(shù)據(jù)的獲取和分析這一統(tǒng)計(jì)學(xué)方面,也不可能只涉及一、兩個(gè)研究方向。面對(duì)各種實(shí)際領(lǐng)域中的統(tǒng)計(jì)學(xué)問題,特別是挑戰(zhàn)性強(qiáng)的困難問題,應(yīng)該有一些統(tǒng)計(jì)工作者與實(shí)際領(lǐng)域的專家相結(jié)合,在解決實(shí)際問題的過程中利用統(tǒng)計(jì)學(xué)的有關(guān)最新成果,同時(shí)探索新的統(tǒng)計(jì)概念、模型、方法和理論。以理論研究為主的統(tǒng)計(jì)學(xué)者,在關(guān)注國際統(tǒng)計(jì)學(xué)理論發(fā)展的同時(shí),也應(yīng)關(guān)心我國實(shí)際領(lǐng)域中的統(tǒng)計(jì)問題及其進(jìn)展,提出和解決其中的理論問題。這樣,我國的統(tǒng)計(jì)學(xué)將在與國際接軌的同時(shí),也將逐漸培育起自己的肥沃土壤,為我國的現(xiàn)代化建設(shè)和國際統(tǒng)計(jì)學(xué)的發(fā)展都作出應(yīng)有的貢獻(xiàn)。
致謝在本文形成的過程中,曾得陳希孺院士,張堯庭、陳家鼎、茆詩松、王學(xué)仁、安鴻志、趙林城和韋博成等教授的幫助,特致衷心的感謝!
轉(zhuǎn)載于:https://www.cnblogs.com/xiami303/archive/2012/01/10/2318519.html
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的高维、相依和不完全数据的统计分析(二)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分享20个非常有用的Web开发工具和框架
- 下一篇: TSVNCache占用CPU的解决办法