admin
作者热门文章
NBT | 利用一亿人工启动子解析真核生物基因表达调控
2019-12-09
顺式调控元件cis-regulatory DNA sequence),例如启动子,是控制真核生物基因表达的重要逻辑元件,其功能是通过结合转录因子(TF)实现的。然而科学家们并不清楚其影响基因表达的具体作用机理是什么,例如,到底是哪一个或者哪几个转录因子结合位点被结合?转录因子的结合对启动子和基因产生了什么改变?转录因子的合作方式是什么?如果对启动子序列进行突变会对基因表达产生什么效果?由于转录因子的数目繁多,需要建立定量模型来对其在启动子的作用进行研究。然而之前的研究,无论是基于真核细胞内存在的启动子,人工突变的启动子,或是基于随机产生的DNA片段,都存有规模不足的问题。举例而言,研究上千的转录因子之间的两两相互作用,就需要大约千万数量级的不同启动子序列。

2019年12月2日,MIT Broad Institute研究员Aviv Regev组在Nature Biotechnology杂志上发表了题为Deciphering eukaryotic gene-regulatory logic with 100 million random promoters的文章。他们开发了一种名为Gigantic Parallel Reporter Assay(GPRA) 的方法,可以从单次实验中获得约一千万个随机启动子序列的表达水平,并运用这种技术研究了酵母细胞的表达调控逻辑。

GPRA借鉴了之前的双重报告系统的原理,在质粒上插入持续表达的红色荧光蛋白和依赖启动子的黄色荧光蛋白,以两者荧光强度的比例来衡量表达强度。接着,使用流式细胞仪将细胞按表达强度分为18个区间,并对每个区间的启动子序列分别测序。他们在黄色荧光蛋白前插入80bp的随机序列作为启动子,并在启动子上下游设计了两种不同环境,一种是上游有polyT,下游有polyA(pTpA),另外一种是上游有Abf1结合位点,下游有TATA box(Abf1TATA)。对于第二种细胞,除了在葡萄糖环境下培养外,研究者还使用了半乳糖或者甘油作为替代培养基。研究者利用GPRA获得了超过一亿启动子的表达水平。

作者们接着建立了一个数学模型,通过提取启动子序列中的信息来预测启动子可及性(accessibility)以及基因表达水平。他们的模型可以预测测试数据集中92.6%的基因表达差异。而对于酵母细胞中原本真实存在的启动子和基因,随机启动子模型也可以预测其中85%的基因表达差异。

由于这个模型中预测了启动子可及性,作者们进一步将预测的启动子可及性和实验数据相比对。他们发现预测的核小体占据水平(nucleosome occupancy)同MNase-seq的实验值较为相似,其平均值也和DNaseI实验结果近似。常见的调控因子,如Abf1, Reb1,Rap1等,也都在模型中被认为是可以增加染色质可及性的。将半乳糖环境和葡糖糖环境培养得到的细胞的模型相比较,还可以发现Gal4只在半乳糖环境下起作用。甚至,在没有已知转录因子PWM的情况下,模型也可以通过从头学习PWM来达到精确预测基因表达的目的。

由于许多的转录因子都有特定的作用位点和DNA链(正或负),作者又将这些因素加入了模型,使模型的误差进一步减少了20%。作者也因此证实了一系列转录因子的作用都和相对位置密切相关,如Abf1, Skn7,Mcm1等。而有一些转录因子的结合偏好是呈跳跃性的,作者认为这可能同DNA双螺旋的朝向有关。为了进一步研究转录因子相对位置是如何影响基因表达的,作者选取了几个有位置偏好性的转录因子,实验且模拟预测了它们在不同位置上的基因表达水平。他们发现主要的影响还是在于启动子可及性。然而有些时候,转录因子结合位点的位置改变会也形成次级因子的结合位点。作者们接着研究了到底有多少个转录因子对基因活性造成了影响。他们发现,只有0.1%的转录因子可以造成两倍以上的表达水平改变,而绝大部分的差异表达都要归因于那些有着较弱影响的转录因子。

总而言之,作者证明了GPRA技术可以为研究启动子转录调控逻辑带来丰富的训练数据,使建立由成百上千个转录因子活性和结合位置组成的复杂模型成为可能。同时,他们也揭示了在启动子上转录因子的结合存在着广泛的差异,这些差异通过影响启动子可及性改变了基因表达

原文链接:https://doi.org/10.1038/s41587-019-0315-8
参与评论0条
友情链接: 国家药品监督管理局
@2019 BIOART.COM ALL RIGHTS RESERVED.沪ICP备18041007号
评论
193