切入精準醫(yī)療領域 生物技術催生基因測序新紀錄

作者: 2016年12月16日 來源:化工儀器在線 瀏覽量:
字號:T | T
伴隨著科技的發(fā)展,醫(yī)療行業(yè)也進入了嶄新的智能化時代。春江水暖鴨先知,市場的規(guī)模動向,直接反映行業(yè)的發(fā)展起伏。近兩年,由基因測序領導的精準醫(yī)療產(chǎn)業(yè)發(fā)展迅猛,從事二代測序基因檢測的公司數(shù)目增速迅猛,其他傳

   伴隨著科技的發(fā)展,醫(yī)療行業(yè)也進入了嶄新的智能化時代。春江水暖鴨先知,市場的規(guī)模動向,直接反映行業(yè)的發(fā)展起伏。近兩年,由基因測序領導的精準醫(yī)療產(chǎn)業(yè)發(fā)展迅猛,從事二代測序基因檢測的公司數(shù)目增速迅猛,其他傳統(tǒng)IVD檢測公司也開始相繼涉足??梢钥吹剑a(chǎn)業(yè)鏈上下游的公司都從各個角度開始切入精準醫(yī)療領域。
  
 人和未來生物科技有限公司(Genetalks,以下簡稱“人和未來”)是業(yè)內領先的生物科技公司,是一家依托基因和信息技術,為健康和醫(yī)療行業(yè)提供解決方案的高科技生物公司,業(yè)務包括遺傳疾病和腫瘤篩查、精準健康管理、基因和健康信息技術解決方案等。
  
 在今年11月舉行的第11屆國際基因組學大會(ICG)——基因組云計算技術開發(fā)者大會(GCTA)上,人和未來在“數(shù)據(jù)壓縮”和“計算加速”兩個項目上,獲得此次GCTA大會的冠軍。刷新世界紀錄的同時,保持了最低的計算成本。之所以取得如此傲人的成績,人和未來首席技術官宋卓認為,一方面是基于人和未來多年來在基因測序領域所做的行業(yè)積累,另一方面就是科技進步為人類醫(yī)學發(fā)展帶來的福音,而此次科技助力的直接引擎,就是云計算。
    
 “數(shù)據(jù)壓縮”與“計算加速”的項目意義
  
 眾所周知,由于測序價格的降低,基因信息數(shù)據(jù)量近年來一直呈現(xiàn)遠超摩爾定律的指數(shù)增長?;驕y序往往產(chǎn)生大量數(shù)據(jù),對于用戶來說,如何讓大量數(shù)據(jù)快速、穩(wěn)定地上傳至云端,并在更快、成本更低地進行并行化彈性計算,成為行業(yè)用戶普遍面臨的技術挑戰(zhàn)。
  
 為了解決行業(yè)性的根本問題,作為世界范圍內權威的基因組學術大會,ICG設置了云技術開發(fā)者專場,將數(shù)據(jù)的存儲壓縮與加速計算設置為比賽項目,讓行業(yè)內的科技團隊一起參與,提出最優(yōu)的解決方案,共同解決行業(yè)內的根本問題。
  
 宋卓介紹,此次比賽共有全球300多家IT機構和團隊參加,在高手云集的激烈角逐中,人和未來脫穎而出,靠的不是運氣,而是跨學科跨領域的創(chuàng)新。“全基因組分析挑戰(zhàn)是生物信息信與IT團隊協(xié)同創(chuàng)新的結果。”
 BT(生物技術)與IT結合達成創(chuàng)新
 據(jù)了解,在計算加速項目上,去年已知最好的分布式計算成績是1小時50分鐘。而人和未來今年取得的成績是18分鐘,并且成本極低。用宋卓的話來說,這是一個數(shù)量級上的提升,一個質的變化。
 具體來說,人和未來采用了亞馬遜AWS上的300臺虛擬機,將分析時間從單臺服務器的30個小時,縮短為18分鐘,以機時費$16的超低價格,將全基因組計算費用帶入百元時代。通過人和未來的方案,對比單臺標準服務器,基因測序數(shù)據(jù)分析的速度提高了90倍,并可節(jié)約75%的云計算機時費用。
 當被問及如此低的機時費是如何做到的?宋卓表示,通常,“快速”與“低成本”是相互矛盾的。幸運的是,亞馬遜AWS提供了非常靈活的競價定價方式以及相應的特殊計算資源使用模式即AWSSPOTInstance競價服務,使人和未來有機會同時追求“快速”與“低成本”成為可能。
 當然,雖然這種被稱為SPOTInstance的競價服務,是AWS面向公眾提供的大眾服務,
 但并非所有團隊都能享有該服務所帶來的紅利。原因在于,AmazonEC2競價型實例是讓用戶能夠對空閑AmazonEC2計算容量進行競價,其定價完全由使用者出示的競價價格來實時確定。在競拍人少的情況下,這些機器的價格都非常低,大致是按需付費機器價格的10%左右。但天下沒有免費的午餐,購買此類機器的使用者必須承擔一定風險——即當實時價格高過你所出示的最高競拍價格后,你的機器將被收回。因此,如果要使用如此低廉價格的機器,就必須有足夠好的技術和系統(tǒng)設計來對抗機器隨時可能被收回的風險。由于這樣的風險和高技術門檻的因素存在,造成大量使用這類機器的用戶通常并不多。
 做過高性能計算的人都知道,對單個計算規(guī)模很大的計算任務進行加速,絕不是簡單的擴充機器就能完成的,分布式系統(tǒng)的IO通信會顯著消耗系統(tǒng)性能,當系統(tǒng)規(guī)模達到一定程度后,IO處理不好,甚至會給全系統(tǒng)帶來負加速。“為了克服IO墻,我們利用自主研發(fā)的高性能數(shù)據(jù)存儲引擎作為基礎塊數(shù)據(jù)存儲設施,通過精細地控制數(shù)據(jù)的分發(fā)與收集,以及平衡的帶寬設計,成功繞過了IO墻問題,使得全系統(tǒng)性能在1000節(jié)點以內,近乎線性提升。”
 另外,在數(shù)據(jù)壓縮領域,人和未來也做到了自己的技術創(chuàng)新。了解行業(yè)的人都知道,F(xiàn)ASTQ文件無損壓縮率的最好成績是2015年LFQZ的14%,但速度過慢不適合大數(shù)據(jù)壓縮;全基因組分析方向,利用分布式計算達到的最快紀錄是2015年Churchill系統(tǒng)的1小時50分鐘。
 為了克服壓縮率難題,人和未來團隊對壓縮編碼領域的幾乎所有算法和理論都進行了系統(tǒng)地梳理和探索。“從最簡單的Haffman編碼、游程編碼、LZ77到普通算數(shù)編碼、范圍編碼、高階算數(shù)編碼,還深入探索了ContextModel+算數(shù)編碼技術以及PPM模型,以及其他壓縮輔助技術,如BWT、MTF等。”宋卓表示。
 在研發(fā)攻堅戰(zhàn)中,人和未來技術團隊從大規(guī)模和高強度的研究中獲益良多,最終在ContextModel的預測模型上狠下功夫,通過對fastq不同數(shù)據(jù)行進行調優(yōu),達到了極高的壓縮能力。團隊在實現(xiàn)系統(tǒng)原型后,進行了大量CPU體系結構級別的性能優(yōu)化。最后,成功地實現(xiàn)了比gzip高4倍的壓縮率,壓縮時間僅僅是gzip的1/6的壓縮作品。
 AWS帶來的價值
 對于參與此次大賽,人和未來前期在公有云選型的時候下了一番功夫,通過對比發(fā)現(xiàn),AWS的優(yōu)勢在于資源彈性擴展,可以提供豐富的周邊服務,并且網(wǎng)絡的穩(wěn)定性強。所以最終決定采用AWS公有云服務來支撐本次參賽過程,這次使用的開發(fā)平臺和最終的使用平臺都是在AWS上完成。
 人和未來采用了AWSEC2計算節(jié)點與S3存儲等基礎設施,并在其上對其功能進行優(yōu)化,由優(yōu)秀的IO平衡設計來彌補云計算節(jié)點間的通信延遲與寬帶劣勢。“我們在AWS上又構建了自己的數(shù)據(jù)存儲體系,以及所有這些任務的調度、數(shù)據(jù)分發(fā)和收集,這是我們自主開發(fā)的專利技術。別的團隊可能也會采用AWS服務,但是由于我們的強項是在于將對生物信息的理解融入云計算中,在架構設計上做到了創(chuàng)新,從而贏得比賽。”宋卓表示。
 實際上,人和未來早在兩年前就開始在此領域做投入。在做這件事情的過程中,也獲得了很多AWS的支持。宋卓認為,首先AWS有很好的技術支持,一些簡單的問題,通過技術文檔都能夠找到相應的解決方案和答案。但隨著系統(tǒng)規(guī)模在以不同數(shù)量級提升時,每上一個層次,都會遇到一些特定系統(tǒng)規(guī)模才會觸發(fā)的各種問題。在此過程中,AWS都給人和未來提供了有效的支持。“所以,取得這樣的成績,跟平臺本身也是密切相關的。盡管我們的技術解決方案不依賴于云平臺,但用戶如果想達到跟我們完全同等的效果,仍然需要使用AWS云平臺?,F(xiàn)階段,人和未來正在積極尋求數(shù)據(jù)壓縮和高性能計算方向的合作伙伴,希望通過技術創(chuàng)新,為用戶帶來更多實際價值。”宋卓介紹。
 

全球化工設備網(wǎng)(http://www.bhmbl.cn )友情提醒,轉載請務必注明來源:全球化工設備網(wǎng)!違者必究.

標簽:

分享到:
免責聲明:1、本文系本網(wǎng)編輯轉載或者作者自行發(fā)布,本網(wǎng)發(fā)布文章的目的在于傳遞更多信息給訪問者,并不代表本網(wǎng)贊同其觀點,同時本網(wǎng)亦不對文章內容的真實性負責。
2、如涉及作品內容、版權和其它問題,請在30日內與本網(wǎng)聯(lián)系,我們將在第一時間作出適當處理!有關作品版權事宜請聯(lián)系:+86-571-88970062