DNA定罪无可辩驳?不精确的检测或导致无辜者蒙冤

bifa.net 1

法医科学家如何处理犯罪现场发现的复杂DNA证据?莱顿大学的Giulia Cereda开发了新的统计模型来分析它们。

北京时间11月9日消息,据国外媒体报道,如果你看过《犯罪现场调查》这类的犯罪类剧集,就会知道DNA证据往往是审清案件的关键因素。如果嫌疑人的DNA与犯罪现场的DNA相符,就足以给他们定罪。但问题是,情况并非永远这么简单。大多数人认为DNA检测不可能出错,但检测分很多种类,还有很多解读方式。在犯罪现场收集证据和在实验室中分析证据的过程中,有时便会出错。

bifa.net 2

bifa.net ,DNA通常被认为是最可靠的法医证据形式,这种声誉基于DNA专家使用统计数据的方式。当他们将犯罪现场留下的DNA与嫌疑人的DNA进行比较时,专家会生成统计数据,描述这些DNA样本的匹配程度。然后,陪审团可以在判定有罪或无罪时考虑这些比赛统计数据。

bifa.net 3

对陈龙綺而言,一次糟糕的DNA测试改变了他一生的轨迹。

NGSCheckMate

这些匹配统计数据是可靠的,因为它们基于严格的科学研究。然而,该研究仅适用于使用现有技术生成的DNA指纹,也称为DNA谱。现在,美国国家标准与技术研究院(NIST)的科学家已经为使用新一代测序(NGS)计算匹配统计数据奠定了统计基础,后者产生的DNA配置文件在解决某些犯罪方面更有用。这项由NIST和FBI共同资助的研究发表在Forensic Sc​​ience International:Genetics上。

DNA证据DNA证据通常被认为是一种诅咒的证据,没有任何不确定性的空间。实际上,很难说一些证据可以在多大程度上支持针对犯罪嫌疑人的案件。这就是为什么法医专家需要统计模型来衡量DNA证据的原因。博士候选人Giulia Cereda开发了新模型,这些模型对于证据中的罕见DNA谱以及不平衡的DNA混合物特别有用。

2009年5月25日清晨,陈龙綺正在他租来的一家台湾零售店外和朋友们喝酒。凌晨3时左右,两名女性加入了他们。据陈龙綺和他的律师称,陈龙綺不久便离开了这伙人,去接妻子下班。在凌晨4点至6点间的某个时段,两名女子遭到强奸。虽然受害人并未指控陈龙綺,也没人指认陈龙綺在罪案发生时在场,但他最终却被判决有罪,判处四年有期徒刑。是DNA证据将他与罪案联系在了一起。

当一个 NGS 项目中对同一个样本进行了 WGS 和 RNA-seq 测序,或者对同一个肿瘤患者的肿瘤组织和癌旁组织同时进行 WGS / WES / RNA-seq / Chip-seq 测序,或者由于第一次测序数据量不够而进行加测得到了两批数据,为了排除实验过程中可能的样本弄混或者标签贴错,就需要验证这不同维度或不同批次的数据是否相互匹配。NGSCheckMate 就是这样一款数据质控软件,可以满足以上所有的需求。

如果你正在处理刑事案件,你需要能够产生匹配统计数据,领导这项研究的NIST生物学家Katherine Gettings说。我们发布的数据将使使用NGS的实验室能够生成这些统计数据。

稀有类型匹配案例当在犯罪现场发现的DNA特征与嫌疑人的DNA特征匹配时,重要的是要知道在一般人群中可以找到这种情况的频率。例如,如果嫌疑人的DNA特征与一般人群中的另外两个人相比,则证据权重更大,而其他一百人则相同。由于法医科学家没有所有个体的DNA谱,他们使用的数据库包含人口样本的DNA谱。

五年后,第二次DNA测验显示,陈龙綺的DNA与犯罪现场根本不相符,于是他被宣告无罪。在他被控强奸的几年间,他失去了他的妻子、事业和大部分人生。他拒绝服刑,宁愿作为逃犯,孤单地生活在抑郁和羞耻的阴影中。

为了判断不同测序数据之间的关系,我之前用过 Mendel(Kinship),KING ,VCFtools (relatedness2 ),但是由于软件接受的输入数据格式问题或者输出结果不直观,都不是很好用,直到我发现了 NGSCheckMate 。NGSCheckMate 可以接受 Fastq/BAM/VCF 作为输入文件,输出文件包含样本聚类关系图,样本之间的相关性系数,样本是否配对说明,比之前我用过的其他软件友好多了。

如何创建DNA配置文件

但通常法医科学家发现DNA配置文件与数据库中的一个配置文件不匹配,这被称为稀有类型匹配案例。Cereda开发了几种统计模型来处理这些案例。

bifa.net 4

NGSCheckMate 运行需要 samtools 在系统路径中, 安装之后运行也很简单,以 VCF 输入文件为例:

为了生成DNA谱,法医实验室分析DNA的部分,称为遗传标记,遗传密码在其中重复,就像一遍又一遍地输入一个词。这些部分称为短串联重复序列或STR,并且每个标记的重复数量因人而异。分析师实际上并没有读取这些标记内的基因序列,只计算每个标记的重复数。这产生了一系列数字,像长社会安全号码一样,可以用来识别一个人。

不平衡的DNA混合物

陈龙綺的这种情况被称作巧合配对(coincidental match)。调查人员一开始测试了犯罪现场找到的几人DNA混合物中Y染色体上的17个基因标记物,结果陈龙綺的DNA吻合。但增加标记物数量之后,结果就不吻合了。因此陈龙綺的DNA并不是犯罪的证据,而是一种做DNA测试时极少考虑的统计异常现象,即所谓的假阳性。

python ncm.py -V –l INPUT_FILE_list -bed BED_FILE -N test_output –O OUTPUT_DIR
# -l 参数,INPUT_FILE_list 包含所有输入 VCF 文件的绝对路径
# -bed 参数,BED_FILE 软件本身自带,包括使用的所有 SNP marker 位点
# -N 参数,test_output 输出文件前缀
# -O 参数,OUTPUT_DIR 指定输出路径

基于STR的分析是在20世纪90年代开发的,当时基因测序非常昂贵。如今,NGS为生物医学研究和其他应用提供了具有成本效益的测序。NGS还可用于创建法医DNA谱,与传统的STR谱不同,它包括标记内的实际基因序列。这提供了更多的数据。

处理DNA证据时的另一个常见困难是混合物,其中含有来自至少两个人的DNA材料。Cereda说,当两个人的DNA混合在一起时,很难将两个贡献者的DNA谱分开。

“所有DNA(证据)都各不相同,很难解释,”协助解除陈龙綺罪名的美国博伊西州立大学教授、爱达荷无罪项目主管格雷格·汉比基安(Greg Hampikian)指出,“就连专家也不能保证每次都理解正确。”

NGSCheckMate 的文章是 2017 年 3 月份发表在 Nucleic Acids Research 上的,影响因子 10.162。

可能不需要额外的数据,因为在大多数情况下,基于STR的配置文件包含足够的信息来可靠地识别嫌疑人。但是,如果证据中只含有少量DNA,或者DNA已经暴露在元素中并且已经开始分解,那么分析师可能只会获得部分概况,这可能不足以识别嫌疑人。在这些情况下,基于NGS的配置文件中的额外数据可能有助于解决此案例。

DNA混合物在不平衡时会更加复杂。这些混合物经常在性侵犯的情况下被发现,当时采用阴道拭子。在这些情况下,受害者的DNA对DNA混合物的贡献超过90%,而嫌疑人的DNA贡献不到10%。在这些混合物中,嫌疑人的DNA谱很可能被受害者掩盖。

自从DNA检测技术1987年首次在美国法庭中发挥作用以来,便一直在寻求公正的过程中扮演着愈加重要的角色。光是美国联邦调查局的DNA数据库就涵盖了1200万份数据,每年可为数万名调查人员提供帮助。仅在美国境内,可当作犯罪证据的DNA测试就有许多中。DNA标准测试为STR检测,出现巧合配对的可能性仅有十亿分之一。但在某些情况下,其它测试可能效率更高、更具性价比。调查人员选择进行哪种测试、以及解读的方式,都会大大影响案件结果。


此外,包含来自几个人的DNA混合物的证据可能难以解释。基于NGS的配置文件中的额外数据也可以帮助这些情况。

DIP-STR

因此,虽然法庭很少怀疑DNA证据,但越来越多的学术界人士呼吁调查在犯罪调查中采用DNA证据的方式。陈龙綺的经历更是令汉比基安等人支持以更审慎的态度利用DNA证据。

摘要

在很多利用 NGS 技术的研究中,会对同一个人的不同组织进行测序,或者对同一个组织进行不同水平的测序,例如 DNA-seq,RNA-seq,Chip-seq。在这种项目中需要添加一个质控环节,来确保不同的数据来自同一个人。我们开发了一款简洁易用的软件 NGSCheckMate,利用 SNP 基因型来鉴定数据来源,它可以利用多种格式的数据,如 Fastq,BAM,VCF 来验证不同的数据是否来自同一个人。软件利用已知的单核苷酸多态性位点(SNP)基因型和等位频率信息,即使测序深度不同等位频率不会出现太大波动,以此来鉴定数据是来自同一个体还是分别来自不同的人。我们的测试表明,NGSCheckMate 适用于多种不同水平的数据,包括 WES、WGS、RNA-seq、Chip-seq、靶向捕获测序和单细胞全基因组测序,并且在测序深度低至 0.5X 时依然表现良好。软件有免比对模式,可以直接利用 Fastq 原始数据快速进行数据来源鉴定的模块。我们推荐在 NGS 项目中使用这款工具进行数据质控。软件可以通过github 项目主页获取。


上一篇:心脏病发作后重返工作岗位 下一篇:没有了