《生物信息學》學生復習資料
《《生物信息學》學生復習資料》由會員分享,可在線閱讀,更多相關《《生物信息學》學生復習資料(13頁珍藏版)》請在裝配圖網上搜索。
1、《生物信息學》復習資料 陳芳 宋東光 教材:《生物信息學簡明教程》(鐘揚編) 1 緒論 分子生物學與計算機、信息科學的結合-生物信息學(Bioinformatics); Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules. 生物信息學及其分支學科 分子生物信息學(molecular informati
2、cs)-即狹義的生物信息學,指應用信息技術儲存和分析基因組測序所產生的分子序列及其相關數據; 生物信息學(bioinformatics)-廣義的生物信息學指生命科學與數學、計算機科學和信息科學等交叉形成的一門邊緣學科,對各種生物信息(主要是分子生物學信息)的獲取、儲存、處理、分析和闡釋;生物信息學是廣義的計算生物學的分支,在為生物學系統(tǒng)建模中應用了量化分析技術; 計算分子生物學(computational molecular biology)-開發(fā)和使用數學和計算機技術以幫助解決分子生物學中的問題,側重于發(fā)展理論模型和有效算法; 分子計算(molecular computing)-
3、將DNA作為一種信息儲存器,應用PCR技術和生物芯片等來進行計算。 生物信息學的主要目的不是分子發(fā)展最精致的算法,其目的是發(fā)現生物體以怎樣的方式生存。 生物信息學和計算生物學研究包括從生物系統(tǒng)的性質抽象出為數學或物理模型,到實現數據分析的新算法,以及開發(fā)數據庫和訪問數據庫的Web工具。 生物信息學的功能是表示、存儲和分布數據。開發(fā)從數據中發(fā)現知識的分析工具處于第二位。 生物信息學發(fā)展階段與研究方向 前基因組時代-數據庫建立、檢索工具的開發(fā)和蛋白質序列分析; 基因組時代-基因尋找和識別、網絡數據庫系統(tǒng)的建立如EST數據庫及電子克隆等; 后基因組時代-大規(guī)?;?/p>
4、組分析、蛋白質組分析、各種數據的比較和整合。 面臨的主要挑戰(zhàn): 1)互操作的生物信息系統(tǒng)及相關數據挖掘技術; 2)發(fā)展揭示大規(guī)模數據集合不同組分間關系的統(tǒng)計分析方法和優(yōu)化算法; 3)開發(fā)數據轉換工具,建立預測模型; 4)開發(fā)微陣列和基因芯片等新技術的數據分析工具。 我國生物信息學研究的發(fā)展方向 建立國家生物醫(yī)學數據庫與服務系統(tǒng) 人類基因組的信息結構分析 功能基因組相關信息分析 研究遺傳密碼起源與生物進化(尤其是分子進化)的過程與機制 生物信息學基本方法與前沿技術 基本方法 1)建立生物數據庫 2)數據庫檢索 3)序列分析 4)統(tǒng)計模型 5)
5、算法 前沿技術 1)數據管理技術 2)數據倉庫、數據挖掘與數據庫中的知識發(fā)現技術 3)圖像處理與可視化技術 生物信息學的應用 生物信息的經濟價值與生物信息學市場 基因組分析 基因芯片 藥物開發(fā) 其他應用領域 生物信息學的主要研究領域及其應用前景 生物信息學(bioinformatics)-廣義的生物信息學指生命科學與數學、計算機科學和信息科學等交叉形成的一門邊緣學科,對各種生物信息(主要是分子生物學信息)的獲取、儲存、處理、分析和闡釋;生物信息學是廣義的計算生物學的分支,在為生物學系統(tǒng)建模中應用了量化分析技術; 生物信息學發(fā)展階段與研究方向 前基因組時
6、代-數據庫建立、檢索工具的開發(fā)和蛋白質序列分析; 基因組時代-基因尋找和識別、網絡數據庫系統(tǒng)的建立如EST數據庫及電子克隆等; 后基因組時代-大規(guī)模基因組分析、蛋白質組分析、各種數據的比較和整合。 面臨的主要挑戰(zhàn): 1)互操作的生物信息系統(tǒng)及相關數據挖掘技術; 2)發(fā)展揭示大規(guī)模數據集合不同組分間關系的統(tǒng)計分析方法和優(yōu)化算法; 3)開發(fā)數據轉換工具,建立預測模型; 4)開發(fā)微陣列和基因芯片等新技術的數據分析工具。 我國生物信息學研究的發(fā)展方向 建立國家生物醫(yī)學數據庫與服務系統(tǒng) 人類基因組的信息結構分析 功能基因組相關信息分析 研究遺傳密碼起源與生物進化(
7、尤其是分子進化)的過程與機制 生物信息學的應用前景 生物信息的經濟價值與生物信息學市場 基因組分析 基因芯片 藥物開發(fā) 其他應用領域 2 生物信息學的計算機基礎 數據管理與數據庫技術 數據庫是以一種能夠保存持久并可以被操作的方式來保存的數據集合。包括文本文件、電子數據表格和圖象。 數據庫系統(tǒng)由一個數據庫和周圍的環(huán)境,包括軟件、操作系統(tǒng)、硬件和使用它的用戶所組成。 計算機網絡與Internet 計算機網絡是為了資源共享和信息交流的目的而互相連接起來的計算機的集合。 互聯網絡(Internetwork)是指通過中間設備連接的多個網絡的集合,形成覆蓋范圍更廣的計算
8、機網絡。 網絡分類 根據距離分類: 局域網(LAN, Local Area Network)-連接小范圍內的計算機,一般系統(tǒng)覆蓋半徑為幾百米到幾公里,是隨著PC機的發(fā)展而發(fā)展起來的;廣域網(WAN, Wide Area Network)可以連接地理位置比較分散的計算機, Internet是最大的WAN,連接了不同大洲的數百萬個網絡. 介于二者的是城域網(MAN, Metropolitan Area Network). Internet提供的服務 Telnet: 主機遠程登錄; FTP: 文件傳輸; Email: 電子郵件; Usenet: 新聞組; WWW: 萬維網. 數
9、據倉庫和數據挖掘 Data warehouse: 面向主題的、集成的、持久的、歷史的數據集合。從各種數據資源中獲得原始數據→按輔助決策的主題要求形成當前基本數據層→按綜合決策要求形成綜合數據層→由時間機制轉為歷史數據層; KDD: knowledge discovery in database, 從數據中發(fā)現有用信息和模式的過程,包括數據選擇-預處理-轉換-數據挖掘-解釋或評價-knowledge; Datamining:利用算法對KDD過程獲得的信息和模式進行提取,對隱藏信息進行預測性的或描述性的模型匹配.數據挖掘的基本技術包括分類(classification), 回歸(regres
10、sion), 時序分析(time series analysis), 預測(prediciton), 聚類(clustering), 概括(summarization), 關聯(association), 順序發(fā)現(sequence discovery)等. 3 生物信息學資源與數據挖掘 生物信息學資源 基因組信息 蛋白質信息 整合生物學信息 分子數據挖掘工具 序列相似性查詢軟件-BLAST 序列查詢和模式識別 數據挖掘工具 生物信息學資源 查找科學文獻 幾乎每種主要的期刊都有自己的Web站點,網上也有很多文獻數據庫,如NCBI的Medline
11、數據庫(PubMed)等。 PubMed介紹 PubMed系統(tǒng)是由美國國立生物技術信息中心(NCBI)開發(fā)的用于檢索MEDLINE、Pre-MEDLINE數據庫的網上檢索系統(tǒng)(aaancbi.nlm.nih.gov/entrez)。 MEDLINE是美國國立醫(yī)學圖書館(U.S.National Library of Medicine)最重要的書目文摘數據庫,內容涉及醫(yī)學、護理學、牙科學、獸醫(yī)學、衛(wèi)生保健和基礎醫(yī)學。收錄了全世界70多個國家和地區(qū)的4000余種生物醫(yī)學期刊,現有書目文摘條目1000萬余條,時間起自1966年。雖然是世界范圍的,但是大多數記錄是從英語資料(87%)或有英文摘要
12、(72%)的文獻中獲得的。 PubMed使用以關鍵詞為基礎的搜索策略,允許邏輯運算符AND/OR/NOT,用戶可以使用Mesh(Medical Subject Heading)查找。Mesh是一個標準詞庫,可用來幫助查找用不同名稱代表同一概念的文獻??捎肕esh瀏覽器查詢相關的Mesh詞。 基因組信息 DNA測序 雙脫氧測序(ddNTPs)(Sanger 1977) 自動測序(熒光標記引物) 毛細管測序: 提高100倍(2005) 基因組測序 1)YAC, BAC(>100Kb)文庫-> 作圖找到重疊片段,測序 2)鳥槍法測序: 對所有克隆進行測序然后通過計算機進行
13、片段重疊連接。 cDNA文庫測序: ESTs(expressed sequence tags). 提交序列到數據庫 BankIt: submit to GenBank by Web Sequin: local PC program -> GenBank Email: gbsub@ncbi.nlm.nih.gov GenBank GenBank是美國國立衛(wèi)生研究院(NIH)維護的基因序列數據庫,匯集并注釋了所有公開的核酸以及蛋白質序列。每個記錄代表了一個單獨的、連續(xù)的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組:有些按照系統(tǒng)發(fā)生學劃分,另外一些則按照生成這些序列數據
14、的技術方法劃分。目前GenBank中所有的記錄均來自于最初整理向DNA序列數據庫的直接提交。這些整理將序列數據作為論文的一部分來發(fā)表,或將數據直接公開。GenBank由位于馬里蘭州Bethesda的美國國立衛(wèi)生研究院下屬國立生物技術信息中心(NCBI)建立,與日本DNA數據庫(DDBJ)以及歐洲生物信息研究院的歐洲分子生物學實驗室核苷酸數據庫(EMBL)一起,都是國際核苷酸序列數據庫合作的成員。所有這三個中心都可以獨立地接受數據提交,而三個中心之間則逐日交換信息,并整理相同的充分詳細的數據庫向公眾開放 分類檢索:用accession number,整理姓名,物種,基因/蛋白名字,還有許多其他
15、的文本術語來查詢。 同源性(homology):定性。同源序列指從某一共同祖先經趨異進化而形成得不同序列。 相似性(similariy)::定量。通過序列比對過程中用來描述檢測序列和目標序列之間相同DNA堿基或氨基酸殘基序列所占比例的高低。 相似性檢索:用BLAST來在GenBank和其他數據庫中進行序列相似搜索。用E-mail來訪問Entrez和BLAST可以通過Query和BLAST服務器。 用FTP下載整個的GenBank和更新數據。 序列格式 GenBank flatfile (GBFF) 是GenBank數據庫的基本信息單位. GBFF可以分成三個部分,頭部包含關于整個記
16、錄的信息(描述符)。第二部分包含了注釋這一記錄的特性,第三部分是核苷酸序列自身。 蛋白質信息 蛋白質序列和結構分為3個層次:氨基酸序列-一級數據庫,基序(motif)-二級數據庫, 結構域(domain)-結構數據庫。二級和三級數據庫為Derived Databases。 蛋白質數據庫先于核苷酸數據庫。在60年代初,Dayhoff和他的同事們收集了所有當時已知的氨基酸序列,這就是“蛋白質序列與結構圖冊” 。這一蛋白質數據庫后來成為PIR(Protein Information Resource). 一級數據庫記錄了實驗結果,以及一些初步的解釋。在DNA序列記錄中的一種常見的注釋是編碼序
17、列(CDS).大多數蛋白質序列都不是直接由實驗確定的,而是通過DNA序列得到的。蛋白質一級數據庫主要包括:PIR, MIPS, SWISS-PROT, TrEMBL, NRDB, OWL, MIPSX等。 二級數據庫(Secondary DB或Pattern DB): 包括PROSITE, PRINTS, Pfam, BLOCKS, IDENITIFY等。 三級數據庫: 包括SCOP,CATH,PDBsum等。 分子數據挖掘工具 大量的序列和文獻數據必須經過人工或計算機的處理分析才能提取出有用的信息,因而近年來數據挖掘技術的應用在基因表達分析等領域得到了廣泛的開展。數據挖掘不同于傳統(tǒng)的
18、數據庫查詢語言,數據庫的數據須經過調整以利于進行知識挖掘,提取的結果不是數據庫中的元數據,因此,數據挖掘采用多種算法去完成一定的任務,可以對隱藏信息進行預測性的或描述性的模型匹配。 數據挖掘的基本技術包括分類(classification), 回歸(regression), 時序分析(time series analysis), 預測(prediciton), 聚類(clustering), 概括(summarization), 關聯(association), 順序發(fā)現(sequence discovery)等。 序列相似性查詢軟件 Global similar algorithms
19、which optimize overall alignment between two sequences (dynamic programming) Local similar algorithms which see only relatively conserved pieces of sequence (FASTA, BLAST) BLAST: Basic Local Alignment Search Tool BLASTN, BLASTP, BLASTX, tBLASTN, tBLASTP blastn:核酸序列對核酸庫的比對,直接比較核酸序列的同源性。 blastp:
20、蛋白序列與蛋白庫做比對,直接比對蛋白序列的同源性。 blastx:核酸序列對蛋白庫的比對,先將核酸序列翻譯成蛋白序列(根據相位可以翻譯為6種可能的蛋白序列),然后再與蛋白庫做比對。 tblastn:蛋白序列對核酸庫的比對,將庫中的核酸翻譯成蛋白序列,然后進行比對。 tblastx:核酸序列對核酸庫在蛋白級別的比對,將庫和待查序列都翻譯成蛋白序列,然后對蛋白序列進行比對。 4 DNA序列分析 基因結構與DNA序列分析 EST分析 cDNA文庫 EST數據庫 EST聚類分析 電子克隆全長cDNA 序列比對分析 全局和局部排列 CLUSTAL軟件 基因結構與D
21、NA序列分析 電子克隆cDNA全長序列 Virtual cloning: 利用重疊EST序列通過計算機EST數據庫搜索進行拼接獲得全長cDNA. 通常使用BLAST進行檢索,然后進行重疊片段拼接。 Sequence alignment 序列比對是比較兩個(pair-wise alignment)或多個序列(multiple sequence alignment)找出單一字符或字符模式在序列中處于相同的順序。 將兩序列排成兩行,相同字符按列對齊,錯配字符亦可按列或以空格對齊。很容易對齊的序列認為是相似的(similiar). 全局比對(global alignment): 用于比
22、較十分相似且長度幾乎相等的序列,比對大部分堿基. 局部比對(local aligment):比較序列中的最高密度配對字符,獲得一個或多個亞比對順序(subalignment), 用于比較有部分相似的序列,其他部分不相似、長度不同、或具有保守區(qū)段或結構域的序列。 序列比對的重要性 序列比對用于發(fā)現生物序列的功能、結構和進化的信息,獲得最佳比對(optimal alignment)才能做到. 很相似的序列往往可能具有相同的功能,如DNA分子的調控作用,蛋白質分子的相似生化功能或三維結構。來自不同生物相似的兩個序列可能具有相同的祖先序列,或稱為同源的。 新的基因進化認為是通過基因復制(gen
23、e duplication)產生前后兩個拷貝并發(fā)生突變,極少的機會其中的一個拷貝的新突變功能上可能更有利,然后沿不同途徑進化,形成的兩個基因家族仍是相關的且很相似因為具有共同的祖先,由于基因重排(gene rearrangement)會引起蛋白質結構域進行重新配對而導致形成更復雜的蛋白質其進化關系可能難以辨認。 Orthologs(垂直進化-直系同源): 具有共同祖先及功能的同源基因但找不到基因如何復制的證據(有復制證據而同源基因來自一個具有相同功能的拷貝時亦稱Orthologs); Paralogs(平行進化-并系同源): 復制產生的兩個拷貝及其各自進化的后裔; Analogous(類
24、似): 不具有相同祖先但通過獨立進化途徑而聚合了相同的功能稱為聚合進化(convergent evolution), 如chymotrypsin和subtilisin的空間結構和折疊完全不同但其活性部位具有相似的結構特征; Xenologous(外源的-異同源): 通過基因水平轉移(共生、病毒轉導)而產生的相似序列。 Dot Matrix序列比對 點陣比對方法應作為序列比對的首選,因為它可以很快反映序列的插入/缺失和正向/反向重復。但多數程序(DOTTER, DNA Strider, DOTPLOT, COMPARE)不能很好確切的表示比對。比對采用對角線來比對兩個序列,用滑動窗口來過濾
25、隨機的配對,窗口大小可以改變。 Dynamic Programming許多計算機科學的問題都可以簡化為通過圖表尋求最優(yōu)路徑,對每一種路徑都有必要對其進行某種意義上的打分,通常是對沿這一途徑的每一步的增量進行加和. 假定相同殘基加正分,有插入或缺失的殘基就加負分(扣分)根據這一定義,最合適的比對方法會得到最高分,也就是我們尋找的最佳路徑。 動態(tài)規(guī)劃的思想是這樣的,如果一條路徑終止于最佳路徑上的一點,那么這條路徑本身就是起點到這個中間點的最佳路徑,即任何一個終止于最佳路徑上的一點的次級路徑必然就是終止于這一點的最佳路徑本身.這樣,最佳路徑就可以通過把各個最佳的次級路徑連接而成。 Needle
26、man-Wunsch算法:最佳比對必然對每個序列都由始至終,就是說從搜索空間的左上角直至右下角。換句話說,它搜索全程比對。 Smith&Waterman算法:把尋找K種最好的但不相互交叉的比對方式為目標,尋求局部比對時可能會發(fā)現若干個重要的比對。 PAM記分矩陣 序列比較往往希望找到序列的共同祖先是如何經過突變和選擇的?;镜耐蛔冞^程認為是取代(substitutions)-序列中的殘基改變,以及插入或缺失(insertions and deletions). 自然選擇過程篩選突變因而某些突變比其他較為常見。 PAM120, PAM80,PAM60分別用來比對序列間有40%,50%及6
27、0%相似性。PAM250用來比較較遠如只有14~27%相似性的蛋白質較合適。 用PAM矩陣進行比對可以統(tǒng)計地區(qū)分偶然或具有生物學意義的比對。通常不需要先知道序列相似程度,而無空格比對在使用合適PAM矩陣時達到最佳。有時可以使用幾種矩陣的組合,或使用一個矩陣而調整打分的參數可以比對相距較遠序列(主要用于數據庫搜索)。 PAM矩陣比一些簡單的矩陣可能更遜色如基于側鏈化學基團的矩陣,而且PAM用于構建進化樹關系方面不理想。BLOSUM矩陣用于比較較遠蛋白質序列更為有用,因為其基于大量蛋白質的數據。 BLOSUM取代矩陣 BLOSUM62取代矩陣(Blocks amino acid subst
28、itution matrices)基于大量約2000種保守氨基酸patterns(blocks,來自Prosite數據庫)中出現的氨基酸取代而獲得的記分矩陣(Henikoff 1992)。 60%相同的patterns獲得的稱為BLOSUM60, 80%相同的稱為BLOSUM80. BLOSUM62代表了信息含量與數據大小的平衡,即聚類比率升高,區(qū)分真實與偶然的比對的能力亦提高。 PAM模型用于追溯蛋白質的進化途徑,而BLOSUM模型用于發(fā)現保守結構域。 同源性分析中常常要通過多序列比對來找出序列之間的相互關系,和blast的局部匹配搜索不同,多序列比對大多都是采用全局比對的算法。 C
29、lustal的漸進比對:在比對過程中,先對所有的序列進行兩兩比對并計算它們相似性分值,然后根據相似性分值將它們分成若干組,并在每組之間進行比對,計算相似性分值。根據相似性分值繼續(xù)分組比對,直到得到最終比對結果。在比對過程中,相似性程度較高的序列先進行比對而距離較遠的序列添加在后面。 CLUSTAL是一種漸進的比對方法,先將多個序列兩兩比對構建距離矩陣,反映序列之間兩兩關系;然后根據距離矩陣計算產生系統(tǒng)進化指導樹,對關系密切的序列進行加權;然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構建比對,直到所有序列都被加入為止。 世界上最權威的三大生物數據平臺 GenBank數據庫:19
30、79年 歐洲分子生物學實驗室(EMBL):1982年 日本核酸序列數據庫(DDBJ): 1984年 5 分子系統(tǒng)發(fā)育分析 分子進化的基本概念 核酸或蛋白質譜系的系統(tǒng)發(fā)育分析是推測同一譜系是如何通過進化而來的。序列的進化關系可以描述為樹的分枝,枝條反應進化關系遠近,很相似的兩個序列放在鄰近并由共同祖先分枝連接。這個進化樹描述了同一譜系的進化關系,包括了分子進化(基因樹)、物種進化以及分子進化和物種進化的綜合。 同源性 當兩個序列具有進化關系時,兩序列同源(homologous). 類群(group) 祖先類群(ancestral group) 單系類群(mon
31、ophyletic group) 并系/復系類群(paraphyletic/polyphyletic group) 內/外類群(ingroup/outgroup) 姊妹群(sister group) 基因組復雜性與系統(tǒng)發(fā)育分析 進行系統(tǒng)發(fā)育分析時,需考慮大多數基因組的起源是很復雜的,基因組的部分可能是通過正常生殖循環(huán)垂直進化的,其他部分可能由遺傳物質的水平轉移如病毒、DNA轉化、共生和其他轉移機制而來的。 進行發(fā)育樹分析時,選擇的基因應該在所有生物體中出現且在多數物種中可以通過序列保守性來辨認,同時有足夠的序列變異將不同生物體劃分為相同系統(tǒng)發(fā)育的類群,另外最好該基因不處在選擇
32、壓力下即不易丟失變異. 符合以上條件的序列只有小rRNA亞基和線粒體序列。其他基因家族的系統(tǒng)發(fā)育分析則復雜些因而提出了不同的模型。 進化樹: 是一個反映生物體或不同生物體的某些基因的進化關系的二維圖。進化樹均是二分樹(binary),分開的序列稱為類群(taxa),是系統(tǒng)發(fā)育樹的明確單位。樹由向外伸展的枝條或葉片代表taxa,節(jié)點和枝干代表taxa間的關系。每個節(jié)點代表基因經過分開的進化途徑進入兩個不同生殖隔離的物種。枝干長度代表序列的差異數目. 建樹方法常用的有: maximum parsimony(簡約法), distance(距離法), maximum likelihood(最大似然
33、法). Maximum parsimony method(MP, 最大簡約法) 也稱最小進化法(minimum evolution method),通過減少產生序列觀察差異的步驟來預測進化樹。多序列比對是必要的,利用盡可能少比對序列上各個位置的改變預測發(fā)育樹,并找到最好的發(fā)育樹。主要用于序列數較少且很相似的序列。 Distance method(距離法) 距離法根據一組序列中的每對序列差異的數目產生發(fā)育樹。具有最小差異的序列對稱為“鄰居(neighbors)”,它們在樹上的同一節(jié)點或具有相同祖先,分別以樹枝表示。距離法找到組內最近的鄰居的方法亦是multiple sequence a
34、lignment使用的第一步。距離法最早由Feng&Doolittle (1991)提出,可以同時產生蛋白質序列的比對和發(fā)育樹。CLUSTALW程序利用neighbor-joining distance method,PAUP和PHYLIP亦有使用距離法獲得發(fā)育樹。 Distance method將序列間距離相加以獲得樹枝長度,樹枝上的改變數目對應于序列間的距離。 Fitch & Margoliash Method F&M(1987)使用距離表(distance table),將序列以3個一組進行處理計算分枝長度預測發(fā)育樹. 樹枝長度亦是加性的, 對于短樹枝樹來說是最準確的。較長樹枝則
35、降低可靠性。 Neighbor-joining method(NJ, 鄰接法) NJ法與FM法相似但利用不同算法找出序列對,用于預測不同譜系進化速率不同時的發(fā)育樹比較可靠。首先計算序列間的距離然后計算樹枝長度總和,獲得星狀樹,求得總和最小的樹的兩個序列即可以認為是鄰居. UPGMA(算術平均不加權對群法) UPGMA(unweighted pair group method with arithmetic mean)是聚類常用的方法。UPGMA認為樹枝的改變速率是一個常數其距離近乎相等(ultrametric)。將序列配對或聚類的方法很多且各異,通常首先計算最相關的序列將其樹枝長
36、度(branch length)平均,再與另一序列或cluster平均,直到所有序列都進行了計算并得到樹根。當樹枝的突變率不一致時得到的樹容易出錯。 選擇外類群(outgroup) 如果已知某些序列相關程度較遠,可以將其加在最后接近樹根,這樣可以提高預測的準確性。這些序列稱為外類群。但是,外類群序列必須與其他序列密切相關,又與其他序列保持顯著的差異(其他序列本身則較近)。 將序列相似性轉換成距離分值 大多數序列比對只是確定序列間的相似程度而不是距離, 最簡單的打分體系即相似性(similarity)描述了序列比對中匹配的位置而距離為不匹配位置的數目,是可以通過轉換為另一個序列的位置
37、。說明這些改變是共同祖先序列分枝產生的。 Maximum likelihood approach(ML, 最大似然法) ML利用概率計算找出差異序列的最佳發(fā)育樹。ML分析多序列比對的每個列,考慮所有可能的樹,因而只能對少數序列有效。對于每個樹,引起序列變異的序列改變或突變是要考慮的,由于出現新突變的頻率是很低的,因而需要更多的突變樹才能與數據吻合的樹是不太可能的。 進化樹構建的主要方法、各自的原理及優(yōu)缺點 距離建樹方法:利用雙重序列比對的差異程度進行建樹; 最大簡約法:進化往往會走最短的路-----DNA序列發(fā)生的堿基替換數量最少 最大似然法:進化會走可能性最大的路
38、1)距離建樹方法(非加權組平均法UPGMA,相鄰歸并法Neighbor-joining, NJ(優(yōu)點:快速),Fitch-Margoliash(FM)( 優(yōu)點:允許OTU(操作分類單位)間存在不同的進化速率)) 原理:根據雙重序列比對的差異程度(距離) 優(yōu)點:使用序列進化模型、計算強度較小 缺點:屏蔽了真實的特征符數據。 2)最大簡約法 原理:最能反映進化歷史的樹具有最短的樹長(tree length),即進化步數(性狀在系統(tǒng)樹中狀態(tài)改變的次數)最少。即:DNA序列發(fā)生的堿基替換數最少。 3)最大似然法 原理:首先選定一個進化模型,計算該模型下,各種分支樹產生現有數據的可能性。具
39、有最大可能性的系統(tǒng)樹為最優(yōu)。即一個樹的似然性(likelihood)等于每一個性狀的似然性之和或每一個性狀的似然性對數之和。 優(yōu)點:完全基于統(tǒng)計,在每組序列比對中考慮了每個核苷酸替換的概率,使用越來越普遍 缺點:計算量非常大,缺乏普遍適用的替換模型(不同的替換模型給出不同的結果) 基因進化樹與物種進化樹的區(qū)別 基因樹(gene tree): 基于一種或少數幾種同源基因(蛋白)的比較分析而構建的系統(tǒng)發(fā)生樹,其實質是基因的進化歷史。 物種樹(species tree):綜合考察物種多方面的進化證據而構建的系統(tǒng)發(fā)生樹。物種樹一般最好是從多個基因數據的分析中得到。例如最近的一項的研究表明,高
40、等植物進化研究需要采用100種不同的基因來構建物種樹,才有較高的可信度。 6 基因組分析 Introduction 自90年代全基因組測序如微生物、酵母(Saccharomyces cerevisiae)、秀麗線蟲(Caenorhabditis elegans)、擬南芥菜(Arabidopsis thaliana)、果蠅(Drosophila)和人類(Homo sapiens)開展以來,生物信息學的一個主要任務即是進行全基因組分析。其他的基因組計劃亦已開展。 經典遺傳學和分子生物學只是研究某個單一基因的作用、對其測序并預測其功能或對其表達進行控制。而獲得基因組全序列則可以鑒定控制代謝
41、、細胞分化和發(fā)育、動植物病理過程等的重要基因及其相關基因。 多年來對模式生物E.coli, S. cerevisiae, A. thaliana, D. melangogaster的遺傳和生化研究已積累了大量的關于基因結構和功能的信息,老鼠Mus musculus則是研究人類基因的主要動物模型因其在進化上密切相關。 Prokaryotic genomes: 原核基因組測序前提: 1)已進行過很好的生物學分析,如E.coli;2)為重要的人類病原菌;3)具有發(fā)育樹重要性(rRNA-Archaea, Bacteria, Eukarya)。 Eukaryotic genomes 真核基
42、因組特點:順序重復(sequence repeats): 5-200bp,衛(wèi)星DNA, 端粒和著絲粒DNA,小衛(wèi)星DNA(minisatellites, 25bp),微衛(wèi)星DNA(micro~, 4bp或更少)。 轉座因子(transposable elements, TEs): 從一個染色體移到另一染色體,其不斷增加數目可占基因組的很大部分。 Retroposons: SINEs(short interspersed nuclear elements, 80~300bp) & LINEs(long interspersed nuclear elements, 6~8kbp)。人類一個
43、典型的SINEs即Alu(1.2 million copies), 一個LINE1(593,000 copies, 14.6%)。 脊椎動物染色體具有長的區(qū)段(>300bp)其富含GC,重復, 基因密集稱為isochores(等容線),亦即基因組由特異的確定(distinct)區(qū)段組成。如人和鼠有富含AT并有較多的Alu或B1/B2(SINEs),以及具有高基因密度的富含GC區(qū)段。 真核生物基因結構 內含子: 蛋白質編碼基因均有不同長度和數目的內含子插入且位置一般是固定的,酵母很少整個基因組僅含239個內含子,而人類基因可能含100個內含子占基因長度的95%。 Comparat
44、ive genomics 比較基因組學包括對原核和真核生物的基因數目、基因容量、基因位置進行比較分析,全基因組序列的獲得可以將其編碼的蛋白質,蛋白質組與其他物種比較。 序列比較可以獲得基因關系的信息-具有相同功能和進化歷史,稱為orthologs。如果一套基因歸屬一組并集中在染色體的特定位置, 且另一物種的一套相似基因亦歸于一組, 則它們具有相同進化歷史。 Horizontal Gene Transfer(HT) 垂直傳遞(vertical transmission): 大多數物種的基因組由父母的染色體傳遞給子代。 基因水平轉移(horizontal transfer-HT
45、, or lateral transfer): 從其他物種獲得遺傳物質-典型例子如線粒體和葉綠體的內共生。HT不經常發(fā)生,有時經歷了上千萬年。 基因的功能分析(Functional classification) Gene annotation: 精確基因注釋是基因組分析重要的第一步,注釋通常是通過數據庫相似性搜索找到與已知功能序列的顯著比對。不很顯著的匹配只能作為一種假設的預測并作為一種功能的假說(MAGPIE, GENEQUIZ)。 功能注釋: 同一物種內很相似基因稱為paralogous序列通常具有相關的生物學功能。說明paralogs通過gene duplication其中
46、一個拷貝保留原來的功能而另一拷貝在進化壓力下經過選擇獲得了新的功能但不太遠。E.coli的90%以上基因初步歸于8個相關的組包括enzymes, transport elements, regulators, membranes, structural elements, protein factors, leader peptides and carriers. Gene Ontology(GO)分類: molecular functions, biological processes, and cellular components Global Gene Regulation M
47、icroarray analysis: 了解基因在細胞周期、發(fā)育時期、環(huán)境脅迫下誘導表達或抑制的情況,在相同條件下表達的升或降的基因系列其常常是相關的。Microchip將物種的所有基因制備成寡核苷酸探針鋪于80x80載玻片上(也可以直接合成于載玻片上,密度達到1 million/cm2),然后與標記的cDNA雜交,標記的量可反映基因表達情況。 獲得共表達基因序列芯片結果后,進一步分析這些基因的啟動子區(qū)段找出保守模式并推測哪些轉錄因子參與基因表達的調節(jié)。 基因芯片(gene chip),又稱DNA微陣列(microarray),是由大量cDNA或寡核苷酸探針密集排列所形成的探針陣列,其工
48、作的基本原理是通過雜交檢測信息。 7 蛋白質組分析 蛋白質組-一個基因組所編碼的全部蛋白質成分。 蛋白質組分析的主要內容有: 1)蛋白質組作圖、蛋白質組成分鑒定、蛋白質組數據庫構建、新型蛋白質發(fā)掘、蛋白質差異顯示、同工型(isoform)比較;2)功能基因組計劃、基因產物識別、基因功能鑒定、基因調控機制分析;3)重要生命活動的分子機制;4)醫(yī)學靶分子尋找與分析;5)疾病診斷。 蛋白質組分析技術 技術路線:主要包括樣品制備、圖象分析、蛋白質成分分析與鑒定。 數據處理:氨基酸分析、肽質指紋圖譜(PMF)、氨基酸分析與PMF聯合、序列標簽途徑、N端EDMAN降解蛋白與微量測序
49、、蛋白質內肽微量測序、MS(MALDI-TOF, ESI)微量測序、“LADDER”測序等。 2-DE雙向電泳技術 2-DE-蛋白質組研究中分離復雜蛋白質混合物的核心技術,能夠同時分離成千蛋白質。 2-DE的分辨率取決于在兩維上的長度,與有效的分離面積成正比。 重復性是限制2-DE廣泛應用的主要問題。自動化、凝膠圖像分析等仍待提高。 蛋白質鑒定的質譜方法 蛋白質鑒定途徑 Edman測序法在80年代中期出現自動化蛋白質測序儀后成為蛋白質鑒定的主要方法-N端逐步降解,對每步釋放的衍生化氨基酸進行反相HPLC分離、UV檢測。電泳分離蛋白質電轉印到PVDF膜再進行Edman測序
50、分析,但N端封閉后則不能進行測序,可選擇中間肽段測序。 MS(mass spectrometry)質譜分析 通過質譜數據與序列數據庫相關分析鑒定蛋白質: 蛋白質的氨基酸組成、氨基酸序列、蛋白質和肽段的質量以及肽碎片的質量。分子的精確質量可以用MS快速、靈敏、高精度地測定。MS只限于檢測能夠形成離子并被送入真空系統(tǒng)的分子的質量-電噴霧電離(ESI, 1989)和基質輔助激光解吸/電離(MALDI , 1998)技術的發(fā)明使得質譜可用于分析生物大分子如蛋白質、核酸和糖類。 domain, fold, motif31、蛋白質的各級結構的定義 Domain: 指具有特定且相對獨立的三維立體結
51、構、而且能夠獨立完成某種功能的蛋白質的一部分,但有時候也泛指蛋白質序列的一部分。 Fold: 蛋白質基本三維結構,包括:(1) 二級結構元件(2)元件之間的順序連接(3)元件之間的相對空間位置 Motif:模體,在DNA或蛋白質序列上保守的短片段,或蛋白質結構上普遍存在的保守立體結構元件。 一級結構:氨基酸序列; 二級結構:局部多肽鏈借助氫鍵排成特有的規(guī)則結構;如α螺旋,β-折疊等等 三級結構:由遠程肽段折疊而產生,一般指多肽鏈的獨立折疊單位經多重盤繞、折疊形成由各種次級鍵維持的球狀結構。簡單蛋白質的三維空間結構,或復雜蛋白質亞基的三維空間結構。 四級結構:由若干亞基組裝成復雜蛋白
52、 蛋白質家族、蛋白質超家族 蛋白質家族(family): are groups of proteins that demonstrate sequence homology or have similar sequences.(一般成員之間的序列相似性超過40-50%以上,進化上可能共同起源于同一祖先蛋白)。主要是從量上面講,即序列相似性很強的一系列蛋白質 蛋白質超家族(superfamily):Consist of proteins that have similar folding motifs but do not exhibit sequence similarity.成員之間的
53、幾乎不存在序列相似性,但在結構組成上有相似的折疊模體構成。主要是從性上面講,即序列功能、結構很相似,但序列卻不相似的一類蛋白質 蛋白質折疊過程中的關鍵作用力 1)氫鍵(hydrogen bond):N-H和O-H等具有很大的偶極矩,H核裸露而帶正電荷,而與電負性強的原子之間的靜電吸引。在穩(wěn)定蛋白質的結構中起著極其重要的作用。 2)范德華力(vanderWaals force):作用力較弱,包括:定向效應、誘導效應和分散效應 3)疏水作用(hydrophobic interaction)(熵效應):在水溶液中,蛋白質分子的疏水基團或側鏈為避開水分子,而被迫埋藏與蛋白質分子的內部,并彼此相互接近,構成疏水內核。 4)離子鍵:它是帶正電荷與帶負電荷基團之間的一種靜電相互作用。 5)二硫鍵:二硫鍵是由蛋白質的兩個半胱氨酸之間配對形成的一種共價鍵。二硫鍵的形成是蛋白質折疊過程中的重要步驟,其形成動力學影響蛋白質折疊的速率和途徑,它的錯誤配對是影響蛋白質多肽鏈正確折疊的重要原因。二硫鍵的存在對于維持蛋白質空間結構穩(wěn)定性,保持其生理活性具有至關重要的意義。 友情提示:部分文檔來自網絡整理,供您參考!文檔可復制、編制,期待您的好評與關注! 13 / 13
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 川渝旅游日記成都重慶城市介紹推薦景點美食推薦
- XX國有企業(yè)黨委書記個人述責述廉報告及2025年重點工作計劃
- 世界濕地日濕地的含義及價值
- 20XX年春節(jié)節(jié)后復工安全生產培訓人到場心到崗
- 大唐女子圖鑒唐朝服飾之美器物之美繪畫之美生活之美
- 節(jié)后開工第一課輕松掌握各要點節(jié)后常見的八大危險
- 廈門城市旅游介紹廈門景點介紹廈門美食展示
- 節(jié)后開工第一課復工復產十注意節(jié)后復工十檢查
- 傳統(tǒng)文化百善孝為先孝道培訓
- 深圳城市旅游介紹景點推薦美食探索
- 節(jié)后復工安全生產培訓勿忘安全本心人人講安全個個會應急
- 預防性維修管理
- 常見閥門類型及特點
- 設備預防性維修
- 2.乳化液泵工理論考試試題含答案