GFF格式说明
GFF3是GFF注釋文件的新標準。文件中每一行為基因組的一個屬性,分為9列,以TAB分開。
依次是:
1. reference sequence:參照序列
指出注釋的對象。如一個染色體,克隆或片段??梢杂卸鄠€參照序列。
2. source :來源
注釋的來源。如果未知,則用點(.)代替。
3. type :類型
屬性的類型。建議使用符合SO慣例的名稱(sequence ontology,參看[[Sequence Ontology Project]]) ,如gene,repeat_region,exon,CDS等。
4. start position :起點
屬性對應片段的起點。從1開始計數(shù)。
5. end position :終點
屬性對應片段的終點。一般比起點的數(shù)值要大。
6. score :得分
對于一些可以量化的屬性,可以在此設置一個數(shù)值以表示程度的不同。如果為空,用點(.)代替。
7. strand :鏈
“+”表示正鏈,“-”表示負鏈,“.”表示不需要指定正負鏈。
8. phase :步進
對于編碼蛋白質的CDS來說,本列指定下一個密碼子開始的位置??梢允?,1或2,表示到達下一個密碼子需要跳過的堿基個數(shù)。
對于其它屬性,則用點(.)代替。
9. attributes :屬性
一個包含眾多屬性的列表。格式為“標簽=值”(tag=value)。不同屬性之間以分號相隔。可以存在空格,不過若有“,=;”則用URL轉義(URL escaping rule),同時TAB也需要轉換為“%09”表示。
下列的標簽已定義:
ID
指定一個唯一的標識。對屬性分類是非常好用(例如查找一個轉錄單位中所以的外顯子)。
Name
指定屬性的名稱。展示給用戶的就是該屬性。
Alias
名稱的代稱或其它。當存在其它名稱時使用該屬性。
Note
描述性的一些說明。
Alias和Note可以有多個值,不同值之間以逗號分隔。
如:Alias=M19211,gna-12,GAMMA-GLOBULIN
Other good stuff can go into the attributes field, as we shall see later.
PLOB文章轉載自:http://www.plob.org/2011/12/02/655.html
gff格式是Sanger研究所定義,是一種簡單的、方便的對于DNA、RNA以及蛋白質序列的特征進行描述的一種數(shù)據(jù)格式,比如序列的那里到那里是基因,已經成為序列注釋的通用格式,比如基因組的基因預測,許多軟件都支持輸入或者輸出 gff格式。目前格式定義的最新版本是版本3。原始定義見SONG website gff是文本文件,由tab鍵隔開的9列組成,以下是各列的說明: Column 1: “seqid” 序列的編號,編號的有效字符[a-zA-Z0-9.:^*$@!+_?-|] Column 2: “source” 注釋信息的來源,比如”Genescan”、”Genbank” 等,可以為空,為空用”.”點號代替 Column 3: “type” 注釋信息的類型,比如Gene、cDNA、mRNA等,或者是SO對應的編號 Columns 4 & 5: “start” and “end” 開始與結束的位置,注意計數(shù)是從1開始的。結束位置不能大于序列的長度 Column 6: “score” 得分,數(shù)字,是注釋信息可能性的說明,可以是序列相似性比對時的E-values值或者基因預測是的P-values值?!?”表示為空。 Column 7: “strand” 序列的方向, +表示正義鏈, -反義鏈 , ? 表示未知. Column 8: “phase” 僅對注釋類型為 “CDS”有效,表示起始編碼的位置,有效值為0、1、2。 Column 9: “attributes” 以多個鍵值對組成的注釋信息描述,鍵與值之間用”=“,不同的鍵值用”;“隔開,一個鍵可以有多個值,不同值用”,“分割。注意如果描述中包括tab鍵以及”,=;”,要用URL轉義規(guī)則進行轉義,如tab鍵用 %09代替。鍵是區(qū)分大小寫的,以大寫字母開頭的鍵是預先定義好的,在后面可能被其他注釋信息所調用。 預先定義的鍵包括:
- ID 注釋信息的編號,在一個GFF文件中必須唯一;
- Name 注釋信息的名稱,可以重復;
- Alias 別名
- Parent Indicates 該注釋所屬的注釋,值為注釋信息的編號,比如外顯子所屬的轉錄組編號,轉錄組所屬的基因的編號。值可以為多個。
- Target Indicates: the target of a nucleotide-to-nucleotide or protein-to-nucleotide alignment.
- Gap:The alignment of the feature to the target if the two are not collinear (e.g. contain gaps).
- Derives_from:Used to disambiguate the relationship between one feature and another when the relationship is a temporal one rather than a purely structural “part of” one. This is needed for polycistronic genes.
- Note 備注
- Dbxref 數(shù)據(jù)庫索引
- Ontology_term: A cross reference to an ontology term.
總結
- 上一篇: python 学习汇总41:unicod
- 下一篇: latex插图编号_LaTeX 技巧94