RNAseq中的unigene、scaffold、singleton、Distinct clusters、Distinct singletons、unique gene的区分?
生物信息小白一枚,想问各位大神,看文献的过程中感觉这些概念都好混乱,我看的是RNAseq的文章。问题可能有点多,希望大神都帮忙回答,感激不尽。如果大神能一一解答,无以回报,真的要以身相许了。
clean reads通过彼此之间的overlap组装成contig,然后将reads mapping 到contig,通过pair-end information将来自同一transcript的contig连在一起组成unigene(Q1:这一步将reads mapping回contig不是很理解,是说有些reads的一段落在contig A上,另一端落在contig B上,然后就可以将这两个contig拼接在一起吗?求解释其中具体过程与原理。),那这样的话unigene之间是没有gap的是吧。
但是又看到另外一篇文章里面,用pair-end joining and gap-filling将contig组装成scaffold,然后用TGICL软件将scaffold组装成distinct clusters和distinct singletons(Q2:这个scaffold之间是有gap的吗?distinct clusters和distinct singletons又是什么意思呢?)
然后又看到另外一篇文章,将reads mapping回contig,通过pair-end information将来自同一transcript的contig连在一起组成unigene,然后将unigene组装成scaffold,并且此文章中的unigene和scaffold之间都是由gap的。(Q3:unigene之间不是没有gap的吗?这个unigene之间的gap和scaffold之间的gap的关系和区别又是什么呢?)
附上原话:To further shorten the remaining gaps, we gathered 优艾设计网_Photoshop交流the paired-end reads with one end mapped on the unique contig and the other end located in the gap region and performed local assembly with the unmapped end to fill in the small gaps within the scaffolds. Such sequences containing least Ns and not being extended on either end were defined as unigenes.
然后我手头有一个物种的混合组织的转录组数据,里面的序列都是组装好的没有gap的CL_contig_All和unigene_ALL(截图如下),(Q4:请问这个CL开头的contig_All和unigene_All对应以上的哪两个概念呢?)
另外,Q5:文献中出现的unique sequence和unigene是不是等价的呢?
王为新 2021-04-10 10:59
第七届国际基因产业大会将于2016年11月3-5日在上海外高桥喜来登酒店举办,大会已经成功举办过六届,已成为全球生物医药产业领域重要会议之一,本届会议邀请到国内外著名院士、世界著名基因技术公司高管,还有来自世界40多个国家和地区在基因领域最具影响力的专家、学者、500强制药企业高管、著名科研院所的资深科学家和项目组长领衔主讲,将向世界传递DNA和RNA的研究、基因组学和遗传学的进步、生命科学的前沿研究、医学应用的新兴领域、生物催化和生物工艺、基因技术在农业和食品领域的开发和应用等热点话题,共计20多场专业分会论坛。为专家学者、企业精英、各相关组织机构和个人搭建集国际性与专业性于一体的专题演讲和交流合作的平台。
我们盛情邀请相关领域的专家学者出席本届会议,大会主要活动包括主题报告、科技论坛、专题讨论会、展览展示、海报展示、高端人才招募洽谈会等多种形式,将为参会人员提供最前沿的科技资讯、传递行业发展趋势和最新动向,期待着2016年11月与您共聚上海!。
关于更多信息,可直接登录大会官网:
http://www.bitcongress.com/wgc2016/cn
大会亮点:
100+ 基因产业领域热点话题
300+ 基因产业最新发展的专业演讲
100+ 科学海报展示最新研究成果
50+ 企业将展示最新产品、技术和服务
500+ 全球专家学者、企业界代表欢聚一堂
科技论坛
专题一:主会场
第一部分:开幕式
第二部分:主题论坛
专题二: 基因产业论坛
论坛1: 核酸研究突破
论坛2: 基因组学和遗传学研究进展
论坛3: 生命科学的前沿研究
论坛4: 医学应用的新兴领域
论坛5: 新生物治疗的发现
论坛6: 先进的生物技术
论坛7: 强大的技术开发
论坛8: 生物催化、生物转化和生物工艺
专题三: 农业生物技术
论坛9: 植物生物学与生物技术的前沿
论坛10: 农业支柱产业
论坛11: 农业创新技术
论坛12: 农业作物生产与管理
论坛13: 农业为基础的能源、经济和稳定发展
专题四: 食品科学与技术
论坛14: 食品科学前沿
论坛15: 食品经济,政策和安全
论坛16: 先进的食品生物技术
论坛17: 保健食品和功能性食品
论坛18: 特定食品的研究
论坛19: 食品检测与分析
参会价格
大会分为参会票、餐饮票两种参与方式,并设有论文投递及学术展板展示,详情如下:
1)参会票:1900元起
参会票包含:可参加会议所有论坛,会议期间茶歇,会议资料1份。
2)餐饮票:2500元起
餐饮票包含:可参加会议所有论坛,会议期间午餐,会议期间茶歇,会议第一天欢迎晚宴,会议资料1份,学术展板1块或投递论文1篇。
学生票半价,只针对参会票
目前,科技论坛演讲,大会征集论文摘要、学术海报、企业展览正在招募中,欢迎踊跃报名并诚邀赞助单位!
报名链接:http://www.bitcongress.com/wgc2016/cn/zhuce.asp
(三人以上注册参会票可享受团体优惠,详情请联系会务组。)
学术展板
一.展示时间:2016年11月3 -5日
二.展示形式:招贴画展 (Poster Session)
三.展板尺寸:70CM(宽)×90CM(高)
企业展览
展览范围:科学仪器、实验设备、试剂、 消耗品、生物医药制剂、技术服务、外包、 媒体及杂志等
展位价格及内容
标准展位:6月价格8500元起,越早报名价格越优惠。
包含内容:中英文对照公司楣板一条,咨询桌1张, 椅子2把, 电源插座1个,射灯2盏。
标准展位所包含服务:
1) 展位一个(11月3-5日 ),11月2日下午布展
2) 赠送1 张参会票(含会议期间茶歇、午餐、欢迎晚宴和资料袋)
3) 赠送5个免费参会名额
4) 在会议网站首页放置参展公司 LOGO,并链接到参展公司网站
5) 在会刊扉页展商列表中印刷参展公司LOGO
6) 在会刊内刊印参展商200字左右中英文对照版的企业介绍并附联系方式
7) 会后发放所有参会人员以及参展单位通讯录
赞助机会
大会诚邀赞助单位
为进一步体现“加强合作、优势互补、资源共享、共同发展”的宗旨,为企业提供一个诠释企业文化、推介自我的舞台,特征集赞助合作单位,根据企业的贡献量身定做各种回报方案,达到企业预期目标,详细赞助方案请咨询会务组。
赞助优势
与行业精英面对面交流的绝佳机会。
了解最前沿技术和产品的第一选择。
与潜在的合作伙伴面对面地谈论合作方案。
提高贵公司技术产品的品牌认可。
为贵公司带来无限商机和现场签单的机会。
提高您个人的国际知名度。
与政府相关部门负责人沟通的绝佳机会。
我们殷切地期待您的加入,并在这个国际平台上向您的国内外同行分享您的知识与远见!
报名链接:http:/优艾设计网_Photoshop百科/www.bitcongress.com/wgc2016/cn/zhuce.asp
联系方式:
2016第七届国际基因产业大会会务组
联系人:张圆
电话:0411-84575669-851
手 机:15041134922
Q Q : 13409281
邮 箱:kira@bitconferences.cn
地址:大连市高新园区汇贤园1号11号
路鑫 2021-04-10 11:10
Q1:这一步将reads mapping回contig不是很理解,是说有些reads的一段落在contig A上,另一端落在contig B上,然后就可以将这两个contig拼接在一起吗?求解释其中具体过程与原理。
理解正确,原理如一楼所说的。两条contig连接在一起后可能可能有gap,也可能没有,这取决于Paried-end的这一对reads是否有重合区和有多少Paried-end reads用来补gap。
楼主对Paried-end reads可能不是太清楚,对于Paried-end reads,一般是不会测通的(就是说不会有重合的部分),比如300bp的插入片段(insert size),两端各测100bp,中间的100bp没有被测到,也就是说对于这个300bp的插入片段,测序得到的一对reads只有200bp信息,中间的100bp是gap。
Q2:这个scaffold之间是有gap的吗?distinct clusters和distinct singletons又是什么意思呢?
scaffold内通常有很多gap,补gap可以减少gap的长度,但能不能完全补好,如上所说,取决于有多少可用于补gap的 Paried-end reads。对于后边的两个名字,应该是这样理解:
Tgicl把相似的序列聚在一起,1个cluster就是相似性很高的一堆序列;distinct clusters是指不同的cluster;distinct singletons是指不到相似序列进行聚类,只能多带带一条序列归为一类的序列;
Q3:unigene之间不是没有gap的吗?这个unigene之间的gap和scaffold之间的gap的关系和区别又是什么呢?
有没有gap如Q1所说,可能有也可能没有。scaffold的概念一般是出现在基因组序列中,而优艾设计网_PS问答unigene是转录本的概念(不含内含子)不清楚为何是unigene还能组装成scaffold。gap都是指碱基未知的缺口;
Q4:请问这个CL开头的contig_All和unigene_All对应以上的哪两个概念呢?
contig_All 对应 distinct clusters。
unigene_All 对应 distinct singletons。
都回答了,好紧张。
i刘建华 优艾设计网_设计百科 2021-04-10 11:15
您好 请问你能将paper list 发上来嘛
第一个问题非常好理解,因为paired-reads来源于转录本的其中一个片段,那装出来的转录本倘若不符合这种对应关系的话,当然就有可能是artifact啦
精彩评论