發(fā)布時(shí)間: 2018年04月03日
“基因檢測(cè)”算法可以運(yùn)用于網(wǎng)站“指紋”的精準(zhǔn)識(shí)別?這看似跨度很大的想法卻在電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院2013級(jí)直博生卓中流的努力下變?yōu)榱爽F(xiàn)實(shí)。
由于受到生物醫(yī)學(xué)領(lǐng)域的基因序列檢測(cè)算法的啟發(fā),卓中流提出了一種高效的網(wǎng)站指紋檢測(cè)算法,彌補(bǔ)了傳統(tǒng)模型無法對(duì)多級(jí)頁(yè)面跳轉(zhuǎn)進(jìn)行建模的缺陷,同時(shí)提高了單一網(wǎng)頁(yè)的檢測(cè)準(zhǔn)確率。
這項(xiàng)成果是基因序列檢測(cè)算法在網(wǎng)絡(luò)流量識(shí)別和針對(duì)僵尸網(wǎng)、暗網(wǎng)等檢測(cè)方面的初次運(yùn)用,為流量識(shí)別領(lǐng)域和網(wǎng)站指紋檢測(cè)領(lǐng)域提供了新思路。相關(guān)論文已經(jīng)發(fā)表在了信息安全領(lǐng)域頂級(jí)期刊IEEE Transactions on Information Forensics and Security上。卓中流為第一作者,明尼蘇達(dá)大學(xué)雙城分校教授Zhi-li Zhang為共同作者,電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院(網(wǎng)絡(luò)空間安全學(xué)院)教授張小松為論文通訊作者。
突發(fā)奇想:借用“基因檢測(cè)”算法
從“比特幣”到海外代購(gòu),跨境交流和貿(mào)易往來從未像今天這樣方便快捷,但是隨之而來的網(wǎng)絡(luò)犯罪、境外網(wǎng)絡(luò)詐騙等案件也如影隨形。暗網(wǎng)和僵尸網(wǎng)檢測(cè)成為現(xiàn)代社會(huì)網(wǎng)絡(luò)安全重要議題。
研究者們針對(duì)以上問題提出了一種新的解決思路——網(wǎng)站“指紋”識(shí)別。所謂網(wǎng)站“指紋”,指的是訪問該網(wǎng)站時(shí)發(fā)送和接收數(shù)據(jù)包產(chǎn)生的特有信道特征。但是這種技術(shù)目前距離“實(shí)戰(zhàn)”還有較大的距離,尤其是在面對(duì)網(wǎng)頁(yè)的“多級(jí)頁(yè)面跳轉(zhuǎn)”等問題時(shí)依然束手無策。如何進(jìn)一步提高網(wǎng)站指紋識(shí)別的能力,卓中流發(fā)現(xiàn)了一個(gè)新方法。
2016年3月,卓中流無意間看到一篇SCI四區(qū)的論文,研究的是如何用“生物基因序列”來做應(yīng)用識(shí)別。他隱約感到,既然都是用于“識(shí)別”,那么“生物基因序列”的方法很可能與網(wǎng)站指紋識(shí)別有一定的交集。
卓中流抓住了這個(gè)靈光乍現(xiàn)的念頭,此后的五個(gè)月里,他查詢了大量參考文獻(xiàn)和資料。由于在準(zhǔn)備申請(qǐng)公派留學(xué),他沒有太多時(shí)間去做實(shí)驗(yàn)驗(yàn)證,直到于2016年10月到美國(guó)明尼蘇達(dá)大學(xué)雙城分校,他才真正地開始深入研究。
在明尼蘇達(dá)大學(xué)雙城分校,卓中流師從Zhi-li Zhang開展研究工作。巧的是,在這里他再次接觸到了用“生物基因序列”來做“流量識(shí)別”的文章,這更加堅(jiān)定了他的想法:生物基因序列的方法一定可以用來識(shí)別網(wǎng)站指紋。
克服阻礙:做一個(gè)修行的“苦行僧”
從2016年10月到2017年2月,卓中流只專注這一件事情。在這個(gè)過程中,他遇到的第一個(gè)難題就是,把“生物基因序列”方法用到網(wǎng)站指紋識(shí)別上的理論依據(jù)何在?經(jīng)人指點(diǎn)之下,卓中流把目光投向生物醫(yī)學(xué)領(lǐng)域。
“查找文獻(xiàn)的過程還是很艱難的,因?yàn)槲覜]有太多生物學(xué)的知識(shí),只能一點(diǎn)一點(diǎn)地查找關(guān)鍵的理論?!彼f,自己從高中畢業(yè)后就沒有再摸過生物學(xué)的課本,沒想到這么多年后還要“朝花夕拾”。查詢了大量資料后,他將一些生物學(xué)的理論知識(shí)融入到論文當(dāng)中。
打好了理論基礎(chǔ)只是研究的“前奏”,更加艱苦的工作其實(shí)還在后面。
卓中流完成初稿后,立即把論文投給了IEEE Transactions on Information Forensics and Security。投稿后,他其實(shí)已經(jīng)作好了“大修”的準(zhǔn)備。到了5月中旬,初審意見回復(fù),審稿人建議卓中流補(bǔ)充實(shí)驗(yàn)和數(shù)據(jù)以便更好地說明觀點(diǎn),他立即按照意見進(jìn)行修改。
補(bǔ)充實(shí)驗(yàn)和數(shù)據(jù)的過程,卓中流簡(jiǎn)直像是一個(gè)修行的“苦行僧”。他用網(wǎng)絡(luò)“爬蟲”訪問了1000多個(gè)網(wǎng)站,每個(gè)網(wǎng)站至少爬取20次以上;在幾萬次程序運(yùn)行中,還要解決“網(wǎng)絡(luò)抖動(dòng)”等問題。由于不同網(wǎng)站具有不同的結(jié)構(gòu),反饋的結(jié)果也大相徑庭,他需要不斷調(diào)整自己的程序運(yùn)行規(guī)則。
有一次,程序運(yùn)行到凌晨4點(diǎn)突發(fā)斷網(wǎng),他趕緊從被窩里爬出來,去調(diào)整數(shù)據(jù)接口。這次之后,為避免再次出現(xiàn)這種情況,他在爬取網(wǎng)站時(shí),每隔2個(gè)小時(shí)就去看看程序運(yùn)行情況。后來,干脆在手機(jī)上專門裝了一個(gè)遠(yuǎn)程控制軟件,可以實(shí)時(shí)監(jiān)控程序運(yùn)行情況,“連吃飯時(shí)都要時(shí)不時(shí)查看手機(jī)”。
終成正果:交叉學(xué)科帶來的大效果
經(jīng)過了無數(shù)個(gè)日夜的“修行”,卓中流把經(jīng)過大修大補(bǔ)之后的論文發(fā)了出去,翹首以盼。最終論文順利發(fā)表在了IEEE Transactions on Information Forensics and Security上,它是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的網(wǎng)絡(luò)安全方向僅有的三個(gè)A類頂級(jí)期刊之一,這無疑讓卓中流感到所有的辛苦付出都有了回報(bào)。
卓中流將“基因檢測(cè)”算法運(yùn)用于網(wǎng)站“指紋”識(shí)別的一閃靈光,取得了意想不到的效果。在有背景噪聲的情況下,采用傳統(tǒng)的解決方案,網(wǎng)站的流量特征識(shí)別率會(huì)變低,無法完全反映流量特征。而卓中流在論文中給出了一個(gè)識(shí)別更加穩(wěn)定的算法,能夠更好地匹配網(wǎng)站的流量特征。
同時(shí),傳統(tǒng)的解決方法都只是在某個(gè)網(wǎng)頁(yè)的超鏈接構(gòu)建網(wǎng)頁(yè)指紋,而卓中流的方法能夠把多個(gè)網(wǎng)頁(yè)的超鏈接結(jié)合起來,構(gòu)建一個(gè)更長(zhǎng)、更詳細(xì)的網(wǎng)站指紋,實(shí)現(xiàn)了從部分到整體的飛躍。這就相當(dāng)于基因測(cè)序工作從“單個(gè)基因檢測(cè)”一下子躍升到了“人類基因組測(cè)序”,因此,它能更加真實(shí)地顯現(xiàn)用戶的訪問路徑。
據(jù)了解,這項(xiàng)流量特征識(shí)別技術(shù)除了能在網(wǎng)站指紋方面進(jìn)行使用外,同樣能用于對(duì)病毒的防護(hù),因?yàn)樗梢越o病毒建立特征序列和“基因圖譜”,從而能夠很高效地撕下電腦病毒的偽裝,防止病毒“蒙混過關(guān)”。未來,這種方法還可能在網(wǎng)絡(luò)攻防中有所建樹,尤其是隨著互聯(lián)網(wǎng)已經(jīng)越來越深入地滲透到社會(huì)的方方面面,這項(xiàng)技術(shù)也會(huì)在我們的生活中起到越來越重要的作用。
“交叉學(xué)科研究確實(shí)讓人受益匪淺!”卓中流說,以開放的態(tài)度吸收借鑒其他領(lǐng)域的智慧,可以讓我們有更加寬廣的學(xué)術(shù)視野,讓我們的思維變得更加“活”起來。