切入精準(zhǔn)醫(yī)療領(lǐng)域 生物技術(shù)催生基因測序新紀(jì)錄

作者: 2016年12月16日 來源:化工儀器在線 瀏覽量:
字號(hào):T | T
伴隨著科技的發(fā)展,醫(yī)療行業(yè)也進(jìn)入了嶄新的智能化時(shí)代。春江水暖鴨先知,市場的規(guī)模動(dòng)向,直接反映行業(yè)的發(fā)展起伏。近兩年,由基因測序領(lǐng)導(dǎo)的精準(zhǔn)醫(yī)療產(chǎn)業(yè)發(fā)展迅猛,從事二代測序基因檢測的公司數(shù)目增速迅猛,其他傳

   伴隨著科技的發(fā)展,醫(yī)療行業(yè)也進(jìn)入了嶄新的智能化時(shí)代。春江水暖鴨先知,市場的規(guī)模動(dòng)向,直接反映行業(yè)的發(fā)展起伏。近兩年,由基因測序領(lǐng)導(dǎo)的精準(zhǔn)醫(yī)療產(chǎn)業(yè)發(fā)展迅猛,從事二代測序基因檢測的公司數(shù)目增速迅猛,其他傳統(tǒng)IVD檢測公司也開始相繼涉足。可以看到,產(chǎn)業(yè)鏈上下游的公司都從各個(gè)角度開始切入精準(zhǔn)醫(yī)療領(lǐng)域。
  
 人和未來生物科技有限公司(Genetalks,以下簡稱“人和未來”)是業(yè)內(nèi)領(lǐng)先的生物科技公司,是一家依托基因和信息技術(shù),為健康和醫(yī)療行業(yè)提供解決方案的高科技生物公司,業(yè)務(wù)包括遺傳疾病和腫瘤篩查、精準(zhǔn)健康管理、基因和健康信息技術(shù)解決方案等。
  
 在今年11月舉行的第11屆國際基因組學(xué)大會(huì)(ICG)——基因組云計(jì)算技術(shù)開發(fā)者大會(huì)(GCTA)上,人和未來在“數(shù)據(jù)壓縮”和“計(jì)算加速”兩個(gè)項(xiàng)目上,獲得此次GCTA大會(huì)的冠軍。刷新世界紀(jì)錄的同時(shí),保持了最低的計(jì)算成本。之所以取得如此傲人的成績,人和未來首席技術(shù)官宋卓認(rèn)為,一方面是基于人和未來多年來在基因測序領(lǐng)域所做的行業(yè)積累,另一方面就是科技進(jìn)步為人類醫(yī)學(xué)發(fā)展帶來的福音,而此次科技助力的直接引擎,就是云計(jì)算。
    
 “數(shù)據(jù)壓縮”與“計(jì)算加速”的項(xiàng)目意義
  
 眾所周知,由于測序價(jià)格的降低,基因信息數(shù)據(jù)量近年來一直呈現(xiàn)遠(yuǎn)超摩爾定律的指數(shù)增長?;驕y序往往產(chǎn)生大量數(shù)據(jù),對于用戶來說,如何讓大量數(shù)據(jù)快速、穩(wěn)定地上傳至云端,并在更快、成本更低地進(jìn)行并行化彈性計(jì)算,成為行業(yè)用戶普遍面臨的技術(shù)挑戰(zhàn)。
  
 為了解決行業(yè)性的根本問題,作為世界范圍內(nèi)權(quán)威的基因組學(xué)術(shù)大會(huì),ICG設(shè)置了云技術(shù)開發(fā)者專場,將數(shù)據(jù)的存儲(chǔ)壓縮與加速計(jì)算設(shè)置為比賽項(xiàng)目,讓行業(yè)內(nèi)的科技團(tuán)隊(duì)一起參與,提出最優(yōu)的解決方案,共同解決行業(yè)內(nèi)的根本問題。
  
 宋卓介紹,此次比賽共有全球300多家IT機(jī)構(gòu)和團(tuán)隊(duì)參加,在高手云集的激烈角逐中,人和未來脫穎而出,靠的不是運(yùn)氣,而是跨學(xué)科跨領(lǐng)域的創(chuàng)新。“全基因組分析挑戰(zhàn)是生物信息信與IT團(tuán)隊(duì)協(xié)同創(chuàng)新的結(jié)果。”
 BT(生物技術(shù))與IT結(jié)合達(dá)成創(chuàng)新
 據(jù)了解,在計(jì)算加速項(xiàng)目上,去年已知最好的分布式計(jì)算成績是1小時(shí)50分鐘。而人和未來今年取得的成績是18分鐘,并且成本極低。用宋卓的話來說,這是一個(gè)數(shù)量級上的提升,一個(gè)質(zhì)的變化。
 具體來說,人和未來采用了亞馬遜AWS上的300臺(tái)虛擬機(jī),將分析時(shí)間從單臺(tái)服務(wù)器的30個(gè)小時(shí),縮短為18分鐘,以機(jī)時(shí)費(fèi)$16的超低價(jià)格,將全基因組計(jì)算費(fèi)用帶入百元時(shí)代。通過人和未來的方案,對比單臺(tái)標(biāo)準(zhǔn)服務(wù)器,基因測序數(shù)據(jù)分析的速度提高了90倍,并可節(jié)約75%的云計(jì)算機(jī)時(shí)費(fèi)用。
 當(dāng)被問及如此低的機(jī)時(shí)費(fèi)是如何做到的?宋卓表示,通常,“快速”與“低成本”是相互矛盾的。幸運(yùn)的是,亞馬遜AWS提供了非常靈活的競價(jià)定價(jià)方式以及相應(yīng)的特殊計(jì)算資源使用模式即AWSSPOTInstance競價(jià)服務(wù),使人和未來有機(jī)會(huì)同時(shí)追求“快速”與“低成本”成為可能。
 當(dāng)然,雖然這種被稱為SPOTInstance的競價(jià)服務(wù),是AWS面向公眾提供的大眾服務(wù),
 但并非所有團(tuán)隊(duì)都能享有該服務(wù)所帶來的紅利。原因在于,AmazonEC2競價(jià)型實(shí)例是讓用戶能夠?qū)臻eAmazonEC2計(jì)算容量進(jìn)行競價(jià),其定價(jià)完全由使用者出示的競價(jià)價(jià)格來實(shí)時(shí)確定。在競拍人少的情況下,這些機(jī)器的價(jià)格都非常低,大致是按需付費(fèi)機(jī)器價(jià)格的10%左右。但天下沒有免費(fèi)的午餐,購買此類機(jī)器的使用者必須承擔(dān)一定風(fēng)險(xiǎn)——即當(dāng)實(shí)時(shí)價(jià)格高過你所出示的最高競拍價(jià)格后,你的機(jī)器將被收回。因此,如果要使用如此低廉價(jià)格的機(jī)器,就必須有足夠好的技術(shù)和系統(tǒng)設(shè)計(jì)來對抗機(jī)器隨時(shí)可能被收回的風(fēng)險(xiǎn)。由于這樣的風(fēng)險(xiǎn)和高技術(shù)門檻的因素存在,造成大量使用這類機(jī)器的用戶通常并不多。
 做過高性能計(jì)算的人都知道,對單個(gè)計(jì)算規(guī)模很大的計(jì)算任務(wù)進(jìn)行加速,絕不是簡單的擴(kuò)充機(jī)器就能完成的,分布式系統(tǒng)的IO通信會(huì)顯著消耗系統(tǒng)性能,當(dāng)系統(tǒng)規(guī)模達(dá)到一定程度后,IO處理不好,甚至?xí)o全系統(tǒng)帶來負(fù)加速。“為了克服IO墻,我們利用自主研發(fā)的高性能數(shù)據(jù)存儲(chǔ)引擎作為基礎(chǔ)塊數(shù)據(jù)存儲(chǔ)設(shè)施,通過精細(xì)地控制數(shù)據(jù)的分發(fā)與收集,以及平衡的帶寬設(shè)計(jì),成功繞過了IO墻問題,使得全系統(tǒng)性能在1000節(jié)點(diǎn)以內(nèi),近乎線性提升。”
 另外,在數(shù)據(jù)壓縮領(lǐng)域,人和未來也做到了自己的技術(shù)創(chuàng)新。了解行業(yè)的人都知道,F(xiàn)ASTQ文件無損壓縮率的最好成績是2015年LFQZ的14%,但速度過慢不適合大數(shù)據(jù)壓縮;全基因組分析方向,利用分布式計(jì)算達(dá)到的最快紀(jì)錄是2015年Churchill系統(tǒng)的1小時(shí)50分鐘。
 為了克服壓縮率難題,人和未來團(tuán)隊(duì)對壓縮編碼領(lǐng)域的幾乎所有算法和理論都進(jìn)行了系統(tǒng)地梳理和探索。“從最簡單的Haffman編碼、游程編碼、LZ77到普通算數(shù)編碼、范圍編碼、高階算數(shù)編碼,還深入探索了ContextModel+算數(shù)編碼技術(shù)以及PPM模型,以及其他壓縮輔助技術(shù),如BWT、MTF等。”宋卓表示。
 在研發(fā)攻堅(jiān)戰(zhàn)中,人和未來技術(shù)團(tuán)隊(duì)從大規(guī)模和高強(qiáng)度的研究中獲益良多,最終在ContextModel的預(yù)測模型上狠下功夫,通過對fastq不同數(shù)據(jù)行進(jìn)行調(diào)優(yōu),達(dá)到了極高的壓縮能力。團(tuán)隊(duì)在實(shí)現(xiàn)系統(tǒng)原型后,進(jìn)行了大量CPU體系結(jié)構(gòu)級別的性能優(yōu)化。最后,成功地實(shí)現(xiàn)了比gzip高4倍的壓縮率,壓縮時(shí)間僅僅是gzip的1/6的壓縮作品。
 AWS帶來的價(jià)值
 對于參與此次大賽,人和未來前期在公有云選型的時(shí)候下了一番功夫,通過對比發(fā)現(xiàn),AWS的優(yōu)勢在于資源彈性擴(kuò)展,可以提供豐富的周邊服務(wù),并且網(wǎng)絡(luò)的穩(wěn)定性強(qiáng)。所以最終決定采用AWS公有云服務(wù)來支撐本次參賽過程,這次使用的開發(fā)平臺(tái)和最終的使用平臺(tái)都是在AWS上完成。
 人和未來采用了AWSEC2計(jì)算節(jié)點(diǎn)與S3存儲(chǔ)等基礎(chǔ)設(shè)施,并在其上對其功能進(jìn)行優(yōu)化,由優(yōu)秀的IO平衡設(shè)計(jì)來彌補(bǔ)云計(jì)算節(jié)點(diǎn)間的通信延遲與寬帶劣勢。“我們在AWS上又構(gòu)建了自己的數(shù)據(jù)存儲(chǔ)體系,以及所有這些任務(wù)的調(diào)度、數(shù)據(jù)分發(fā)和收集,這是我們自主開發(fā)的專利技術(shù)。別的團(tuán)隊(duì)可能也會(huì)采用AWS服務(wù),但是由于我們的強(qiáng)項(xiàng)是在于將對生物信息的理解融入云計(jì)算中,在架構(gòu)設(shè)計(jì)上做到了創(chuàng)新,從而贏得比賽。”宋卓表示。
 實(shí)際上,人和未來早在兩年前就開始在此領(lǐng)域做投入。在做這件事情的過程中,也獲得了很多AWS的支持。宋卓認(rèn)為,首先AWS有很好的技術(shù)支持,一些簡單的問題,通過技術(shù)文檔都能夠找到相應(yīng)的解決方案和答案。但隨著系統(tǒng)規(guī)模在以不同數(shù)量級提升時(shí),每上一個(gè)層次,都會(huì)遇到一些特定系統(tǒng)規(guī)模才會(huì)觸發(fā)的各種問題。在此過程中,AWS都給人和未來提供了有效的支持。“所以,取得這樣的成績,跟平臺(tái)本身也是密切相關(guān)的。盡管我們的技術(shù)解決方案不依賴于云平臺(tái),但用戶如果想達(dá)到跟我們完全同等的效果,仍然需要使用AWS云平臺(tái)?,F(xiàn)階段,人和未來正在積極尋求數(shù)據(jù)壓縮和高性能計(jì)算方向的合作伙伴,希望通過技術(shù)創(chuàng)新,為用戶帶來更多實(shí)際價(jià)值。”宋卓介紹。
 

全球化工設(shè)備網(wǎng)(http://bhmbl.cn )友情提醒,轉(zhuǎn)載請務(wù)必注明來源:全球化工設(shè)備網(wǎng)!違者必究.

標(biāo)簽:

分享到:
免責(zé)聲明:1、本文系本網(wǎng)編輯轉(zhuǎn)載或者作者自行發(fā)布,本網(wǎng)發(fā)布文章的目的在于傳遞更多信息給訪問者,并不代表本網(wǎng)贊同其觀點(diǎn),同時(shí)本網(wǎng)亦不對文章內(nèi)容的真實(shí)性負(fù)責(zé)。
2、如涉及作品內(nèi)容、版權(quán)和其它問題,請?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間作出適當(dāng)處理!有關(guān)作品版權(quán)事宜請聯(lián)系:+86-571-88970062