2020年研究生数学建模竞赛总结复盘
文章目錄
- 一、前言
- 二、賽題選擇
- 三、做題思路
- 問題一、數(shù)據(jù)清洗
- 問題二、數(shù)據(jù)降維
- 問題三、建模預(yù)測(cè)
- 問題四、分析模型預(yù)測(cè)結(jié)果與實(shí)際值
- 問題五、可視化
- 四、總結(jié)
- 五、結(jié)果(三等獎(jiǎng))
一、前言
今天是2020年研究生數(shù)學(xué)建模競(jìng)賽的最后一天,今早五點(diǎn)半提交了論文的MD5,一會(huì)提交論文。昨晚,啊不,今早通宵和室友趕完了論文,分析完所有的數(shù)據(jù),調(diào)整了所有的表格和格式,歷時(shí)五天總算是結(jié)束了。這篇文章作為一篇參加完比賽后的總結(jié)和復(fù)盤,記錄一下期間出現(xiàn)的問題、第一次參加比賽的感受和不足。
二、賽題選擇
由于和室友我們?nèi)齻€(gè)都是第一次參加研究生數(shù)學(xué)建模,總體來說還是小白,沒有經(jīng)驗(yàn)。第一天早上賽題出來的時(shí)候,選題花了一早上的時(shí)間,首先上知乎和百度看了往年大神對(duì)今年題目的分析,(不得不說知乎大佬真的多),剔除了專業(yè)性較強(qiáng)的類型,然后從我們能看懂的,主觀感覺上簡(jiǎn)單的題目里面選擇了B題。題目如下,是對(duì)汽油辛烷值損失進(jìn)行建模。
2020年中國(guó)研究生數(shù)學(xué)建模競(jìng)賽B題
降低汽油精制過程中的辛烷值損失模型
一、背景
汽油是小型車輛的主要燃料,汽油燃燒產(chǎn)生的尾氣排放對(duì)大氣環(huán)境有重要影響。為此,世界各國(guó)都制定了日益嚴(yán)格的汽油質(zhì)量標(biāo)準(zhǔn)(見下表)。汽油清潔化重點(diǎn)是降低汽油中的硫、烯烴含量,同時(shí)盡量保持其辛烷值。
我國(guó)原油對(duì)外依存度超過70%,且大部分是中東地區(qū)的含硫和高硫原油。原油中的重油通常占比40-60%,這部分重油(以硫?yàn)榇淼碾s質(zhì)含量也高)難以直接利用。為了有效利用重油資源,我國(guó)大力發(fā)展了以催化裂化為核心的重油輕質(zhì)化工藝技術(shù),將重油轉(zhuǎn)化為汽油、柴油和低碳烯烴,超過70%的汽油是由催化裂化生產(chǎn)得到,因此成品汽油中95%以上的硫和烯烴來自催化裂化汽油。故必須對(duì)催化裂化汽油進(jìn)行精制處理,以滿足對(duì)汽油質(zhì)量要求。
辛烷值(以RON表示)是反映汽油燃燒性能的最重要指標(biāo),并作為汽油的商品牌號(hào)(例如89#、92#、95#)。現(xiàn)有技術(shù)在對(duì)催化裂化汽油進(jìn)行脫硫和降烯烴過程中,普遍降低了汽油辛烷值。辛烷值每降低1個(gè)單位,相當(dāng)于損失約150元/噸。以一個(gè)100萬噸/年催化裂化汽油精制裝置為例,若能降低RON損失0.3個(gè)單位,其經(jīng)濟(jì)效益將達(dá)到四千五百萬元。
化工過程的建模一般是通過數(shù)據(jù)關(guān)聯(lián)或機(jī)理建模的方法來實(shí)現(xiàn)的,取得了一定的成果。但是由于煉油工藝過程的復(fù)雜性以及設(shè)備的多樣性,它們的操作變量(控制變量)之間具有高度非線性和相互強(qiáng)耦聯(lián)的關(guān)系,而且傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)模型中變量相對(duì)較少、機(jī)理建模對(duì)原料的分析要求較高,對(duì)過程優(yōu)化的響應(yīng)不及時(shí),所以效果并不理想。
某石化企業(yè)的催化裂化汽油精制脫硫裝置運(yùn)行4年,積累了大量歷史數(shù)據(jù),其汽油產(chǎn)品辛烷值損失平均為1.37個(gè)單位,而同類裝置的最小損失值只有0.6個(gè)單位。故有較大的優(yōu)化空間。請(qǐng)參賽研究生探索利用數(shù)據(jù)挖掘技術(shù)來解決化工過程建模問題。
二、目標(biāo)
依據(jù)從催化裂化汽油精制裝置采集的325個(gè)數(shù)據(jù)樣本(每個(gè)數(shù)據(jù)樣本都有354個(gè)操作變量),通過數(shù)據(jù)挖掘技術(shù)來建立汽油辛烷值(RON)損失的預(yù)測(cè)模型,并給出每個(gè)樣本的優(yōu)化操作條件,在保證汽油產(chǎn)品脫硫效果(歐六和國(guó)六標(biāo)準(zhǔn)均為不大于10μg/g,但為了給企業(yè)裝置操作留有空間,本次建模要求產(chǎn)品硫含量不大于5μg/g)的前提下,盡量降低汽油辛烷值損失在30%以上。
三、問題
由于催化裂化汽油精制過程是連續(xù)的,雖然操作變量每3 分鐘就采樣一次,但辛烷值(因變量)的測(cè)量比較麻煩,一周僅2次無法對(duì)應(yīng)。但根據(jù)實(shí)際情況可以認(rèn)為辛烷值的測(cè)量值是測(cè)量時(shí)刻前兩小時(shí)內(nèi)操作變量的綜合效果,因此預(yù)處理中取操作變量?jī)尚r(shí)內(nèi)的平均值與辛烷值的測(cè)量值對(duì)應(yīng)。這樣產(chǎn)生了325個(gè)樣本(見附件一)。
建立降低辛烷值損失模型涉及包括7個(gè)原料性質(zhì)、2個(gè)待生吸附劑性質(zhì)、2個(gè)再生吸附劑性質(zhì)、2個(gè)產(chǎn)品性質(zhì)等變量以及另外354個(gè)操作變量(共計(jì)367個(gè)變量),工程技術(shù)應(yīng)用中經(jīng)常使用先降維后建模的方法,這有利于忽略次要因素,發(fā)現(xiàn)并分析影響模型的主要變量與因素。因此,請(qǐng)你們根據(jù)提供的325個(gè)樣本數(shù)據(jù)(見附件一),通過降維的方法從367個(gè)操作變量中篩選出建模主要變量,使之盡可能具有代表性、獨(dú)立性(為了工程應(yīng)用方便,建議降維后的主要變量在30個(gè)以下),并請(qǐng)?jiān)敿?xì)說明建模主要變量的篩選過程及其合理性。(提示:請(qǐng)考慮將原料的辛烷值作為建模變量之一)。
附件:
附件一:325個(gè)樣本數(shù)據(jù).xlsx
附件二:樣本確定方法.docx
附件三:285號(hào)和313號(hào)樣本原始數(shù)據(jù).xlsx
附件四:354個(gè)操作變量信息.xlsx
三、做題思路
首先感覺這就是一個(gè)數(shù)據(jù)挖掘類的題目,需要有相關(guān)的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的知識(shí),并且要能熟練使用常見的數(shù)據(jù)分析工具和編程語言,我們用的SPSS和python,如果對(duì)這兩個(gè)不熟悉甚至沒用過的,打這個(gè)比賽還是不要想了。
問題一、數(shù)據(jù)清洗
我們按照題目給的附件里的數(shù)據(jù)處理要求進(jìn)行清洗,基本也是常規(guī)的數(shù)據(jù)挖掘前期的數(shù)據(jù)預(yù)處理工作。刪除異常值、處理零值、處理離群點(diǎn)等等。
問題二、數(shù)據(jù)降維
需要有相關(guān)的數(shù)據(jù)降維、特征選擇、特征提取的知識(shí)。我們采取k-meas、主成分分析、隨機(jī)森林特征重要性排序的方法綜合挑選重要特征,進(jìn)行降維。
這個(gè)題目中的數(shù)據(jù)維度是很多的,有367維,最終應(yīng)影響的就是辛烷值的損失。而且這么多的維度和辛烷值損失之間的關(guān)系是很復(fù)雜的,是高度非線性、相互強(qiáng)耦合的。
所以需要掌握對(duì)不同類型的數(shù)據(jù),采取不同的降維方法。
問題三、建模預(yù)測(cè)
有了第二問降維后的特征,就要建立模型來預(yù)測(cè)辛烷值損失。我們的思路是,根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)行建模。數(shù)據(jù)是非線性的,就要采用能找出非線性關(guān)系的模型來套用,所以使用了人工神經(jīng)網(wǎng)絡(luò)ANN。
這一問要求要對(duì)數(shù)據(jù)挖掘中常用的模型有所了解,要熟悉它們的特點(diǎn),適用條件。
還要熟悉模型的驗(yàn)證方法。
問題四、分析模型預(yù)測(cè)結(jié)果與實(shí)際值
具體問題具體分析,這個(gè)問題比較具體。就是同用問題三的模型,把數(shù)據(jù)再放進(jìn)去,看結(jié)果怎么樣,還要挑選出結(jié)果好的樣本,分析他們的操作變量(也就是降維后的特征)是怎么操作的。
問題五、可視化
把第四問可視化就行
四、總結(jié)
關(guān)鍵是熟悉數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的基本知識(shí)(當(dāng)然只限于這種類型的題),重要的是編程能力也是很重要的,只了解理論模型、數(shù)據(jù)處理方法是遠(yuǎn)遠(yuǎn)不夠的,還需要編程實(shí)驗(yàn)。總的來說,還是自己掌握的知識(shí)太少,做題的時(shí)候很沒有思路。這篇文章寫的內(nèi)容也不多,就是總結(jié)一下。累了,歇了。
啊對(duì)了,還有一點(diǎn),一開始跳完題目別急著開始做,先把給的數(shù)據(jù)仔仔細(xì)細(xì)看幾遍,根據(jù)題目好好理解,這很有助于提高后面的效率。而且記得查相關(guān)文獻(xiàn),先好好看看文獻(xiàn),說不定有意外之喜。我們就是做了一天,然后才開始看文獻(xiàn),發(fā)現(xiàn)我們要找的關(guān)鍵特征,人家早就有論文給你寫的明明白白。嗯,就這樣。
五、結(jié)果(三等獎(jiǎng))
哦嚯,11月24號(hào)結(jié)果出來了,更新一下,三等獎(jiǎng)。對(duì)小白來說已經(jīng)很滿意了。
總結(jié)
以上是生活随笔為你收集整理的2020年研究生数学建模竞赛总结复盘的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 遇到异常:这可能是由某个扩展导致的
- 下一篇: 场景编辑器竣工!