Starfish 助推单细胞 RNA 测序

bfa999.com 1

bfa999.com ,当下,被称为第四次工业革命的人工智能,已经渗透到各个领域。如今,它为测量和分类超级庞大的生物数据提供了强有力的工具。但对于不知情的人来说,这项技术带来了巨大的困难。

bfa999.com 2

每一个点都是一个单独的 RNA 分子,由其与其它 RNA 的接近程度来定位。这种成像方法被称为 DNA 显微镜,因为它使用了 DNA 测序。

麻省理工学院研究人员开发的一种新算法从全景摄影中获取线索,将大量不同的细胞数据集合并为一个可用于医学和生物学研究的单一来源。

bfa999.com 3

Cell:开发出空间单细胞测序技术,有助揭示早期乳腺癌产生浸润性之谜

将数据分析工具 Starfish 与精确定位 RNA 细胞位置的技术相结合,可以增加原位转录组的空间细节。

单细胞数据集可以分析人类细胞的基因表达 - 例如神经元,肌肉和免疫细胞 - 以深入了解人类健康和治疗疾病。数据集由一系列实验室和技术生成,包含极其多样化的细胞类型。将这些数据集组合到一个数据池中可以开辟新的研究可能性,但这很难有效和高效地完成。

大脑的神经网络长期以来一直激励着人工智能研究者。来源: Alfred Pasieka/SPL/Getty

doi:10.1016/j.cell.2017.12.007

对于电影爱好者来说,《太空堵塞》是一部 1996 年的喜剧电影,讲述卡通人物兔八哥和篮球运动员 Michael Jordan 与动画外星人对决的故事。对于华盛顿西雅图艾伦脑科学研究所的神经科学家 Ed Lein 来说,这是一个以生物信息学为主题的会议的名字——意味着一次 “黑客头脑风暴”。

传统方法倾向于基于非生物模式将细胞聚集在一起 - 例如通过实验室或所使用的技术 - 或意外地合并看起来相同的不同细胞。纠正这些错误的方法无法很好地扩展到大型数据集,并且要求所有合并的数据集共享至少一个公共单元格类型。

四年前,谷歌的科学家出现在加利福尼亚州旧金山格莱斯顿神经病研究所神经科学家Steve Finkbeiner的家门口。Finkbeiner和他的团队使用一种名为“机器人显微镜”的高通量成像策略来产生大量的数据,这些策略是他们为研究脑细胞而开发的。但团队因无法快速分析数据而发愁。因此,Finkbeiner对合作的机会表示欢迎。

在一项新的研究中,来自美国德州大学MD安德森癌症中心的研究人员报道一种新的遗传模型可能解释着一种常见的被称作导管原位癌(ductal carcinoma in situ, DCIS)的早期乳腺癌如何进展到更为浸润性的乳腺癌。相关研究结果于2018年1月4日在线发表在Cell期刊上,论文标题为“Multiclonal Invasion in Breast Tumors Identified by Topographic Single Cell Sequencing”。

4 月,大约 40 名计算和转录生物学家齐聚艾伦脑科学研究所。他们来这里是为了喝咖啡,写代码,以及一个共同的目标:找出原位转录组学领域各种技术的优点、缺点和分析挑战。

在今天发表在Nature Biotechnology上的一篇论文中,麻省理工学院的研究人员描述了一种算法,该算法能够将20多种不同细胞类型的数据集有效地合并为更大的全景图。该算法称为Scanorama,可自动查找并拼接两个数据集之间的共享单元格类型

这几位谷歌的研究人员则在谷歌位于山景城的研究部门Google Accelerated Science工作,这个部门旨在利用谷歌的技术加快科学发现的进展。GAS的科学家们很有兴趣将“深度学习”方法应用于由Finkbeiner团队生成的影像数据。

这项研究对如何导致DCI进展到浸润性导管癌(invasive ductal carcinoma, IDC)提供新的见解,并且对为何一些这样的癌症未被检测到提供了更清楚的理解。这一发现的取得多亏于这些研究人员开发出一种新的被称作空间单细胞测序(topographic single cell sequencing, TSCS)的分析方法。

原位转录组学是一系列技术的组合,包括多重抗误差矫正荧光原位杂交技术、序贯荧光原位杂交、STARmap和荧光原位 RNA 测序等多种技术在组织环境中绘制细胞的基因表达模式。有些人依靠杂交——短核酸探针在拥挤的细胞环境中寻找互补物的能力——而另一些人则基于 DNA 测序。但所有这些都产生了概念上相似的数据——基因表达值与细胞的 x 和 y 坐标相匹配。

  • 例如组合图像中的重叠像素以生成全景照片。

深度学习算法从极大的带注释的数据集中提取原始特征,并利用它们来创建一个基于隐藏在内部的模式的预测工具。一旦训练完成,算法就可以应用这种训练来分析其他数据。

论文共同通信作者、德州大学MD安德森癌症中心遗传学副教授Nicholas Navin博士说,“尽管DCIS是早期乳腺癌中最为常见的形式,且经常可通过乳腺X线拍照检测到,但是这种癌症的10%到30%会进展到IDC。鉴于组织分析存在着若干技术挑战,DCIS如何确切地产生浸润性在基因组上仍未得到很好的理解。”

这些数据可以揭示可能被忽视的细胞间关系,例如哪些细胞在与哪些细胞交谈,以及它们的位置与结构特征之间的关联,以及它们与目标细胞之间的相对位置。正如计算和系统生物学家、麻省理工学院

只要任何其他数据集与最终全景图中的任何一个数据集共享一个单元格类型,它也可以合并。但是,所有数据集都不需要具有共同的单元格类型。该算法保留特定于每个数据集的所有细胞类型。

Finkbeiner说,这种技术可以用来“解决真正困难、复杂的问题,并且能够看到数据中的结构——这些数据量太大,对人类大脑来说太复杂,无法理解”。他说:“当时我不能诚实地说,不清楚地了解深入学习可能会遇到的问题,但是我知道我们以大约两倍到三倍的速度生成数据,超出了我们的分析能力。”

Cell:利用单细胞RNA测序鉴定嗅觉神经元类型

  • 哈佛大学博德研究所人类细胞图集项目的创始联席主席 Aviv Regev 所指出,根据周围的分子信息,他们可以判定目标 RNA 分子的身份。

无论细胞类型是什么,传统方法都会迫使细胞排列。它们会形成一个没有结构的斑点,你会失去所有有趣的生物学差异,计算机科学与人工智能实验室博士生Brian Hie说。 )和计算与生物学小组的研究员。你可以给出不应该对齐的Scanorama数据集,算法会根据生物差异分离数据集。

如今,合作开始取得成效。Finkbeiner的团队与谷歌的科学家们训练了一套深度算法,其中包含两组细胞,一组人工标记以突出了科学家通常看不到的特征,另一组未标记。当他们后来用这套算法来识别未标记细胞的图像时,Finkbeiner说,“它非常善于预测这些图像的标签应该是什么样子。”

doi:10.1016/j.cell.2017.10.019

但该领域的发展如此之快,研究人员可能难以决定使用哪种方法。大量的数据分析算法、管道和文件格式会使数据分析和比较变得困难。Lein 表示,该领域的现状是技术开发过于旺盛。

在他们的论文中,研究人员成功地合并了来自26个不同数据集的超过100,000个细胞,这些数据集包含多种人类细胞,从而创建了单一,多样化的数据来源。使用传统方法,大约需要一天的计算时间,但Scanorama在大约30分钟内完成了任务。研究人员表示,这项工作代表了有史以来合并最多的数据集。

Finkbeiner的成功表明了人工智能最有前途的应用分支之一——深度学习正在深入生物学领域。在生物学中,深度学习算法以人类无法做到的方式深入研究数据,发现人类可能无法捕捉到的特征。研究人员利用这些算法对细胞图像进行分类,建立基因组连接,加速药物发现周期,甚至可以找到不同数据类型的链接,从基因组学和成像到电子病历。

人类的神经系统就像是复杂的电路板。当电线发生交叉或者电路发生故障时,精神分裂症或躁郁症等疾病就能够产生。

在慈善组织陈 - 扎克伯格计划的资助下,以及 HCA 的赞助下,Lein 等人于 2017 年成立了一个研究联盟 SpaceTx——spatial transcriptomics的缩写,对不同的方法进行基准测试。与此同时,CZI 的程序员开始建立一个统一的数据分析工具和文件格式,名为海星,以促进 HCA 的努力,并帮助更广泛的转录生物学界。。在编程中,星号表示通配符。取这个名字就像开玩笑,表示 RNA 测序都依赖于 FISH 技术。)

加入Hie的是:Bonnie Berger,麻省理工学院Simons数学教授,电气工程和计算机科学教授,计算和生物学组负责人;和麻省理工学院生物工程助理教授Bryan Bryson。

BioRxiv上有超过440篇文章讨论深度学习,PubMed网站在2017年列出了700多篇与深度学习有关的参考文献。这些工具正成为生物学家和临床研究人员广泛使用的工具。但是,研究人员在理解和使用这些算法方面仍面临着挑战。

长期以来,科学家们一直在努力鉴定大脑回路的形成方式,以便他们能够了解让存在问题的神经元重新连接起来。

Starfish 是一个开放源代码的软件套件,可以读取图像文件、确认和消除图片中的噪音,在 9 种不同的实验策略中找到代表 RNA 分子的斑点并识别它们。Lein 指出,这次头脑风暴的目的是让开发人员和用户——空间转录组专家——聚在一起讨论,排除故障,并改进他们的方法。在此过程中,研究小组发现了细微的差异,这些差异可能会使那些想在不同实验中比较数据的人感到困惑。该小组还为如何掌握不断增加的技术集提供了一个模型。

联系共同邻居

1.训练智能算法

如今,在一项新的研究中,美国斯坦福大学的生物学教授Liqun Luo、生物工程与应用物理系教授Stephen Quake及其团队通过逐个细胞地构建出果蝇嗅觉神经元的详细基因蓝图,从而在这个方向上迈出了重要的一步。相关研究结果发表在2017年11月16日的Cell期刊上,论文标题为“Classifying Drosophila Olfactory Projection Neuron Subtypes by Single-Cell RNA Sequencing”。

研究基因表达的研究人员通常是在整体水平上进行的,从一块组织中提取 RNA,然后对其进行整体分析。在过去的十年里,像 Drop-Seq 这样的单细胞方法使得研究人员能够以牺牲空间细节为代价来探索细胞之间的差异。

人类拥有数百种细胞类别和子类别,每个细胞都表达了多种多样的基因。诸如RNA测序之类的技术在庞大的多维空间中捕获该信息。细胞是散布在空间周围的点,每个维度对应于不同基因的表达。

深度学习算法依赖于神经网络,这是20世纪40年代首次提出的一种计算模型,其中类神经元节点组成的网络层模拟人脑对信息进行分析。费城宾夕法尼亚大学的计算生物学家Casey Greene说,直到大约5年前,基于神经网络的机器学习算法依靠研究人员将原始信息加工成更有意义的形式,然后才将其输入到计算模型中。但是,数据集的爆炸式增长以及算法创新,已经使人类的工作减少。机器学习的这种进步——“深度”部分——迫使计算机,而不是人类程序员,去寻找深藏数据之下的有意义的关系。随着神经网络中的层对信息进行过滤和排序,它们还可以相互通信,从而允许每个层优化前一个层的输出。

这项研究的基础想法是理解相对简单的果蝇大脑中的神经元类型,和鉴定指导果蝇大脑中不同类型的神经元准确地形成连接的分子。随着时间的推移,人们想要采用类似的方法研究人大脑中复杂得多的细胞组成,甚至可能有朝一日修复大脑疾病中的错误连接。

这就是原位转录组学的起源。这些技术主要使用荧光显微镜和 DNA 测序来揭示组织内部细胞的类型和丰富的 RNA 分子。由此,研究人员可以计算出存在的细胞类型、它们的空间排列以及它们之间的关系。