生物信息学_新闻中心_上光生命科学分部

新闻中心 Product

生物信息学

发布时间：7/4/2011 12:49:28 AM

第一章序论

　　1、生物学数据的特色：海量、庞杂（A生物体的结构与功能以及性命运动过程本身的多样性 B生物学研究的社会学原因，生物学的试验数据无尺度词法、句法）

　　2、生物信息学的概念：专指利用信息技术储存和分析基因组测序所发生的分子序列及其相关数据，也称分子生物信息学。

　　3、生物信息学的发展阶段：A前基因组时期B基因组时期C后基因组时期

　　4、生物信息学的研究现状：A人类基因组B模式生物基因组

　　5、模式生物包含：鼠、拟南芥、玉米、酵母、大肠杆菌

　　6、生物信息学的根本方法：A树立生物数据库

　　B数据库检测

　　C测序分析

　　D统计模型

　　E算法

　　7、生物信息学的前沿技巧：A数据治理技术B数据仓库，数据发掘与数据库的知识发现技术C图像处置与可视化技术

　　8、我国生物信息学研讨的发展方向：A树立国度生物医学数据与服务体系B人类基因组的信息结构分析C功效基因组相干信息剖析D研讨遗产密码来源与生物进化（尤其是分子进化）的进程与机制

　　9、生物信息学的运用――基因组分析：A将已知基因组的序列与功能接洽起来B从基于惯例克隆的基因分类转向基于序列及功能分析研究的基因分类C从组织与组织之间的比较来研究功能基因组与蛋白质组D从单个基因致病序列转向多个基因致病机制的研究E以基因组与蛋白质组的结构与功能关系来预测三级结构与功能，并从三级结构与功能反推可能的序列。

　　第四章人类基因组打算

　　1. 人类基因组打算 (human genome project, HGP)是美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组规划。美国人的贡献率Zui大，承担了54%，其次是英国，承担了33%，日本为7%，法国为2.8%，德国为2.2%，中国科学家承担了1%的测序义务。

　　（1990-2003）

　　2. 分子生物信息数据库种类：① 基因组数据库；②核苷酸和蛋白质一级结构序列数据库；③生物大分三维空间结构数据库；④二次数据库。

　　3. 基因组数据库：GDB和AceDB

　　4. 序列数据库的组成：序列数据（来源：来自核苷酸和蛋白质序列测定）和注释信息（起源：一部分由盘算机程序分析天生；一部分则依附生物学家通过查阅文献材料而获得）。

　　5. 国际三大重要核苷酸序列数据库：

　　EMBL (Eurpo Molecular Biology Laboratory)

　　GenBack

　　DDB J (DNA Date Base of Japan)

　　6. GenBack和EMBL的数据库格局：

　　EMBL

　　GenBank

　　含义

　　ID

　　LOCUS

　　序列名称

　　DE

　　DEFINITION

　　序列简略阐明

　　AC

　　ACCESSION

　　序列编号

　　SV

　　VERSION

　　序列版本号

　　KW

　　KEYWORDS

　　与序列相关的要害词

　　OS

　　SOURCE

　　序列起源的物种名

　　OC

　　ORGANISM

　　序列起源的物种学名和分类学地位

　　RN

　　REFERENCE

　　相关文献编号，或递交序列的注册信息

　　RA

　　AUHORS

　　相关文献作者，或递交序列的作者

　　RT

　　TITLE

　　相关文献标题

　　RL

　　JOURNAL

　　相关文献刊物杂志名，或递交序列的作者单位

　　RX

　　MEDLINE

　　相关文献的Medline引文代码

　　RC

　　REMARK

　　相干文献注释

　　RP

　　相关文献其他注释

　　CC

　　COMMENT

　　关于序列的注释信息

　　DR

　　相关数据库交叉引用号

　　FH

　　FEATURES

　　序列特点表起始

　　FT

　　序列特点表子项

　　SQ

　　BASE COUNT

　　碱基种类统计数

　　空格

　　ORIGIN

　　序列

　　7. 常用蛋白质序列数据库：（1）PIR（Protein information Resource）美，日，德合作的机构；（2）SWISS-PROT和TrEMBL数据库瑞士日内瓦大学创立，目前由SBI和EBI共同保护。

　　8. PIR的构成：PIR1 :序列已验证，注释Zui为详尽；PIR2：包括尚未肯定的冗余的序列； PIR3：尚未加以验证，也未加注释；PIR4：包括各种渠道获得的序列，既未验证，也无注释。

　　9. SWISS-PORT数据库Zui为常用，它包括：结构域，功能为点，跨膜区域，二硫键地位，翻译后润饰，突变体等。

　　10. 蛋白质数据库PDB(Protein Data Bank)的测定技巧：晶体衍射方式和多维核磁共振溶液构象测定办法

　　11. PDB数据库文件寄存方法：文本文件方式（每个分自个用一个独立的文件）

　　12. PDB的内容：（1）根本注释信息：包括原子坐标外、物种来源、化合物名称、结构递交者以及相关问文献等。（2）结构有关的数据：辨别率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键地位等。

　　13. 蛋白质结构分类包含的层次：折叠类型、拓扑结构、家族超家族、结构域、二级结构、超二级结构。

　　14. 重要的蛋白质分类数据库：SCOP和CATH。

　　15. SCOP(Structure dassification of Protein)分为以下七类：α型、β型、α/β型(螺旋和折叠交替呈现）、α+β型（螺旋和折叠持续涌现）、外结构域蛋白质、膜蛋白质和细胞表面蛋白质、小蛋白。

　　16. CATH分为以下四类：α为主类、β为主类、α/β类、低二级结构。

　　17. 低二级结构:二级结构成分含量很低的蛋白质结构。

　　18. CATH分类数据：（1）CATH数据库的分类基础是蛋白质结构域。（2）第二个分类根据为由α螺旋和β折叠形成的超二级结构排列方式，而不斟酌它们之间的直接关系。（3）第三个层次为拓扑结构即二级结构的外形和二级结构间接洽。（4）第四个层次为同源性，它是先通过序列比较然后再用结构比较起来肯定。

　　19. 二次数据库：以基因组序列和结构数据库为基本，联合文献研究而开发的具有特点，便于应用的数据库。

　　20. 二次数据库有两个：E.coli基因组数据库和真核生物基因调控转录因子数据库。

　　21. Prosite数据库实际包括两个数据库文件：数据库文件Prosite和阐明文件PrositeDoc.

　　22. PA行给出功能位点的序列模式实例：

　　[GSK]-F-X(2)-[LIVNF]-X(4)-[RKFQA]-X(2)-[RST]-X-[GA]-X-[KN]-P-X-T

　　可能模式：GFXXLXXXXRXXRXGXKPXT

　　23. 蛋白质构造的二次数据库包含两种（1）：蛋白质家族数据库（Families of Structurally Similar Proteins ,FSSP）：蛋白质家族数据库中的蛋白质通过序列结构比对进行分类。

　　（2）蛋白质二级结构构象参数数据库（Pefinition of Secendary Structure of Proteins , DSSP）：DSSP数据库依据PDB的原子坐标盘算每个氨基酸的二级结构构想参数，包括氢键，主键和侧链二面角，二级结构类型等。

　　第五章数据查询和数据库搜索

　　1数据库查询（database query）：指对序列、结构以及各种二次数据库中的注释信息进行要害词匹配。

　　数据库搜索（database search）：是指通过特定相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有必定水平相似性的序列。

　　它们的差别：在生物信息学中，数据库搜索专门针对核酸和蛋白质序列数据库而言，其搜索对象不是数据库的注释信息，而是序列信息。

　　2．Entres

　　数据库查询体系Entres是美国国度生物技巧信息中心NCBI的

　　Entres的应用方式：（1）进进主页http://www.ncbi.nlm.nih.gov/（2）检索栏填入查询内容，点击Go按钮，即可得到各种相关种数据信息（3）点击nuleotide得到序列list，选择编号查看（4）点击protein得到序列list，选择编号查看

　　3 Entres的功效

　　Limits（限定规模）限定输进的要害词在某个查询范畴内，如编号、代码、提交日期等

　　Preview/Index（预览查询结果）输入症结词后，只列出查询到的数据条目数，进步查询速度，初步懂得查询结果，缩小查询范畴

　　Histry（查看查询记载）查看查询过程的记载

　　Clipboard（操作剪贴板）选择所需查询成果清单list，选择to clipboard，点击send to 按钮

　　Detail显示你的搜索策略

　　4．几个缩写

　　STS：测序标签位点

　　GSS：基因组综述序列

　　EST：表达序列标签

　　5．Entres系统的特色：（1）应用十分便利：通过超文本链接把不同类型的数据库有机联合，实现不同类型的数据库直接转进（2）把数据库和利用程序联合在一起

　　6．SRS

　　是sequence retrieval system的缩写，由欧洲分子生物学试验室开发

　　SRS主页start进入系统三种查询：快速方式、尺度方法、扩大方式

　　扩大查询的功能：

　　Library page：数据库选择 Query form：查询方法

　　Tools：供给可用的分析工具 Results：查询成果管理

　　Projects：存储查询进程 View：显示治理

　　7．SRS系统的特色：（1）同一的用户界面（2）高速的查询功能（3）机动的指针链接（4）便利的程序接口（5）开放的管理模式（6）同一的开发平台

　　8．检测序列：新测定的，盼望通过数据库搜索断定其性质或功能的序列

　　目的序列：通过数据库搜索得到的和检测序列具有必定类似性的序列

　　9．同源性的意义具有共同祖先。两个物种中有两个性状满足下列任一条件，就可称为同源性状：（1）它们与这些物种的祖先类群中所发现的某个性状雷同（2）它们是具有祖先一后裔的不同性状

　　10．同源序列和相似性

　　同源序列：是指某一共同祖先经趋异进化而形成的不同序列

　　相似性：序列比对进程中用来描写检测序列和目的序列之间雷同DNA或蛋白质残基序列所占比例的高下

　　类似性大于百分之五十，可能推测是同源序列

　　相似性小于百分之二十，难以肯定或者基本无法断定其是否具有同源性

　　10．局部相似性和整体类似性

　　序列比对的数学模型分为两类：第一类，整体比对（从全长序列动身，斟酌序列的整体相似性）第二类：局部比对（斟酌序列部分区域的相似性）

　　11．如何选择比对模型：（1）整体相似性比对：对于高度相似序列，具有明显上风，有利于后续的蛋白质预测工作（2）局部相似性比对：对于具有相当大的守旧性蛋白质功能位点比整体比对具有更高的敏锐高，其成果更具有生物学意义

　　12．序列比对的用处：（1）用于系统发育分析：反映进化关系（2）结构预测：推测结构相似性（3）序列基鉴定：鉴定中潜在的序列和基序（4）功能预测：同源序列功能相似性

　　13．Blast是basic local alignment search tool 的缩写，意为基础局部相似性比对搜索工具

　　14． Blast算法的基础思路：首先找出检测序列和目标序列之间相似性水平Zui高的片段，并作为内核向两端延长，以找出尽可能长的相似性序列片段

　　15．Blast检测序列和数据库类型：Blast p检测序列为蛋白质，数据库类型为蛋白质；

　　Blast n检测序列为核酸，数据库类型为核酸；Blast x检测序列是核酸，数据库类型是蛋白质；T Blastn检测序列是蛋白质，数据库类型是核酸；T Blastx检测序列是核酸，数据库类型是核酸

　　16． Blast程序的选择：自己画

　　第六章序列的同源性比较及分子的系统和分子进化分析

　　1.分子进化研讨：具有自然数目特点的氨基酸序列和核甘酸序列，加序列剖析程序。

　　2.相似序列的获得（BLAST程序的选择）：

　　（1）BLASTp，通过比较查询蛋白质序列与蛋白质数据库中的已知序列，寻找同源蛋白质序列并推导其功能。蛋白质序列→BLASTp→比拟查询序列与蛋白质数据库中已知序列→推导可能的蛋白质功能；

　　（2）tBLASTn，通过六框翻译，比较查询蛋白质序列与DNA数据库中序列（翻译成蛋白质序列），寻找同源核苷酸序列。蛋白质序列→tBLASTn→比较DNA序列→推导可能的蛋白质数据库中的六框翻译核苷酸序列→输出文件分析；

　　（3）BLASTn，比较查询序列与DNA数据库中的已知序列，寻找同源核苷酸序列。核酸序列→BLASTn→比较查询序列与DNA数据库中的已知序列→输出文件分析；

　　（4）BLASTx，通过六框翻译，比拟查询核苷酸序列（翻译成蛋白质序列）与蛋白质数据库中的已知序列，寻找同源蛋白质序列。新序列的DNA→BLASTx→发现潜在的编码区（外显子）→发明潜在的编码区翻译成氨基酸序列→比较六框翻译的氨基酸序列与蛋白质数据库中的已知序列→输出文件分析

　　（5）tBLASTx与BLASTx的差别是：同时翻译查询核苷酸序列和DNA数据库中的已知核苷酸序列。新序列的DNA→BLASTx→发明潜在的编码区（外显子）→发现潜在的编码区翻译成氨基酸序列→比拟六框翻译的氨基酸序列与六框翻译的DNA数据库中的已知序列→输出文件分析。

　　3.六框翻译：例如序列TCAATCGATCGATCG的翻译，从左到右翻译，（1）TCA ATC GAT CGA TCG（2）CAA TCG ATC GAT CG（3）AAT CGA TCG ATC G；从右到左翻译（4）GCT AGC TAG CTA ACT（5）CTA GCT AGC TAA CT（6）TAG CTA GCT AAC T.

　　4.常用BLAST服务网站：NCBI,DDBI(日本)，TAIR(拟南芥)。

　　5.多序列比对的意义：（1）蛋白质序列，更能从比对中发现守旧区域，可以更好地推测未知蛋白质的功能（2）从一个家族中多个相干蛋白的对照中可以发明隐含其中的体系发育的关系，从而更好地懂得蛋白质的进化（3）对未知蛋白质的结构进行猜测，推测哪些区域构成了蛋白质的活性位点，哪些区域保持了蛋白质的空间构象（4）假如由与这些蛋白质相关的DNA序列，DNA能供给更多的有关进化过程的信息。

　　6.比对序列:CLUSTAL W,BIOEDIT,MULALIN等。

　　7.PFLP标志：限制性片断长度多态性，是指用限制性内切核酸酶酶切不同个体基因组DNA后，含同源序列的酶切片断在长度上的差别。

　　8.系统学中用来作探针的序列重要有三种：线粒体DNA，叶绿体DNA，rDNA(核糖体DNA),另外还有单拷贝DNA。

　　9.PCR扩增片段的多样性。长处：快捷、经济、所需DNA量少，对DNA制备的浓度请求不高，而且程序非常简略。技术有：RAPD（随机扩增多态性DNA,引物由任意十个碱基组成），AP-PCR(任意引物PCR，引物长20-30bp),DAF(DNA扩增指纹图谱，引物7-8个碱基)，AFLP(扩增片断长度多态性)。

　　10.SNP（指单核苷酸多态性），能够代表一个群体基因组里的中性遗传变更。研究内容：（1）制造足够密集的SNP图谱，终极笼罩全部基因组。SNP的物理定位办法相似于微卫星标志定位（2）针对某些特别的疾病，获得健康人群与感病人群的SNP的各种差异，找出基因组中的哪些部分与疾病相关③在前面工作的基本上将对SNP进行更精密的研究。

　　第二个第六章生物信息学和基因芯片

　　1、基因芯片的种类：A长探针芯片（大于100nm）B短探针芯片(20nm左右)

　　2、基因芯片的基础原理：核算分子的互补配对

　　3、基因芯片的相关技术：A基因芯片的设计B基因芯片的制备C靶基因的制备杂交与检测D检测结果的分析

　　4、基因芯片的制备办法：A在片合成法B点样法

　　5、生物信息学的在基因芯片中的利用：A断定基因芯片检测目的B芯片设计C试验数据的治理与剖析

　　6、基因芯片设计的一般原则：A互补性B敏感性和特异性C容错性D可靠性E可控性F可读性

　　第七章蛋白质结构预测的原理和方式

　　1、蛋白质结构预测：指从蛋白质的氨基酸序列预测出其三维结构

　　2、蛋白质构造猜测的意义：进行蛋白质构造猜测对于懂得蛋白质的结构与功效的关系，并在此基本上进行蛋白质复性、突变体设计以及基于结构药物设计具有主要意义。

　　3、影响蛋白质折叠的因素：A范德华力B偶极相互作用C静电相互作用D氢键E熵效应

内容出自:https://www.swxwj.com,转载请注明出处
上一篇：分子生物学--如有错误概不负责!!
下一篇：生物技术

上海光学仪器厂生物显微镜产品系列