斑点阵列的质量控制

二八年四月十五日

艾格尼丝Paquet1,安德里亚·巴尔扎克1(Jean)杨怡华2

1.加州大学旧金山分校医学部功能基因组学核心中心
paquetagnes@yahoo.com
2.澳大利亚悉尼大学数学与统计学院


内容

杂交质量控制
本指南包含如何安装arrayQuality和如何生成基本诊断图来评估双色微阵列数据的杂交质量的说明。目前支持的平台有:
如何定制arrayQuality
可以修改arrayQuality的几个默认设置,以更好地满足用户的需要。高级用户可以指定:
关于如何自定义诊断图的更多详细信息可以在一个单独的帮助文件中找到,该文件可以通过主帮助页面访问。

称质量
ArrayQuality为打印运行质量控制提供了两种诊断图:
这些诊断图的完整描述以及关于如何生成这些图的说明可以在Print-Run QC用户指南中找到,该指南可以从主帮助页访问。

MEEBO-HEEBO数组
MEEBO和HEEBO数组包含特定的控件集,可用于质量目的。ArrayQuality为这些数组提供了一组特定的诊断图。关于如何生成和解释这些图的说明在一个单独的帮助文件中描述,可以从包的主帮助页访问该帮助文件。详情请参阅本手册。


1.arrayQuality简介

ArrayQuality是一个R包,作为Bioconductor的一部分,旨在帮助在微阵列生命周期的几个阶段评估斑点阵列实验的质量。它提供了包含一些图表和统计措施的报告,可以帮助您确定杂交和幻灯片的质量是否良好。有关Bioconductor的更多信息,请访问//www.anjoumacpherson.com

本指南提供了微阵列质量的介绍和包的主要功能的描述。从R在线帮助系统中获得的各个函数帮助文档给出了该包的完整描述。要访问在线帮助,请键入帮助(包= limma)在R提示符或启动html帮助系统使用help.start ()或Windows下拉帮助菜单。

2.安装arrayQuality

2.1需求

ArrayQuality是R项目的一个库,是Bioconductor的一部分。在安装arrayQuality之前,您需要在计算机上安装R。有关R的更多信息,请参阅R项目http://www.r-project.org.ArrayQuality可以同时处理不同的文件,只有如果他们来自同样的称(相同的GAL文件)。如果希望从不同的打印运行中生成幻灯片的质量报告,则需要将它们放在不同的文件夹中,每个打印运行对应一个文件夹。

2.2安装arrayQuality

ArrayQuality可以从Bioconductor安装。Bioconductor的版本每6个月更新一次。


3.arrayQuality的快速入门指南

在这里,我们将讨论在任何预处理步骤或对单个点进行进一步质量评估之前,为了验证杂交性能的包的组成部分,给出了良好的幻灯片质量。如果您对打印运行或MEEBO/HEEBO组件感兴趣,请参阅这些主题的适当帮助文档。

我们的包提供了两种质量控制图:

可以为GenePix的输出直接生成诊断图。gpr文件),Spot(。点文件)而且Agilent image processing software packages. Most arguments can be customized to match your own data: which probes are used as controls, which columns of the image processing output file are used to define your spot types... You can also specify your own collection of good quality slides. More details on how to customize the package can be found in a separate user manual that you can access from the main help page..

3.1从图像处理输出文件中生成高质量的图形

我们提供3个主要功能来生成高质量的图:gpQuality(), spotQuality()和agQuality().我们将使用gpQuality作为示例,但是下面的命令可以直接应用于spotQuality或agQuality。
  1. 创建一个目录,并将感兴趣的幻灯片的图像处理输出文件(例如.gpr文件)移动到该目录。确保目录中的所有文件都来自相同的打印运行(相同的GAL文件)。

  2. 启动R,并将R工作目录更改为刚才创建的目录。在R菜单中,选择File,然后点击“Change dir…”。从弹出窗口浏览到您的目录,或者手动输入目录,然后单击OK。要再次检查您是否在正确的目录:在文件菜单中,单击“显示文件(s)…”。

  3. 要在R会话中加载包:键入
    库(arrayQuality)

    如果需要,你可能需要安装其他必要的包,如marray, limma, convert和hexbin。

  4. 两者都要生成诊断图和比较箱形图在目录中的所有文件上,键入:
    结果<- gpQuality(有机体= " Mm ")

  5. 生成诊断的情节,运行:
    结果<- gpQuality(有机体="Mm", compBoxplot="FALSE")
    在这种情况下,将不会计算定量质量度量,也不会生成HTML报告。

  6. 要将定量质量度量和规范化数据写入文件:调用gpQuality时设置output = TRUE:
    结果<- gpQuality(有机体="Mm", output=TRUE)

  7. 默认情况下,arrayQuality使用打印尖端黄土归一化。如果你喜欢使用其他方法,你可以在norm参数中指定它:
    结果<- gpQuality(norm="none")
    有关标准化方法的更多详细信息,请参阅marray包帮助。

3.2从marrayRaw或RGList对象生成质量图

你可以使用这个函数maQualityPlots ()直接从R对象生成诊断图。

3.3结果

gpQuality, spotQuality和agQuality输出:

4.微阵列质量介绍

一个微阵列实验由几个步骤组成,包括实验设计、样品制备和各种统计分析(图1)。它们在下面的微阵列生命周期中表示。由于微阵列技术是复杂和敏感的,在进行下一个步骤之前,评估每个步骤的性能是很重要的。此外,这也是一种回溯循环的好方法,可以了解上游问题的潜在原因。

微阵列实验生命周期
图1:微阵列实验生命周期

对于斑点阵列实验,质量控制可以概括为4个步骤:
  1. 打印质量
  2. 信使rna质量
  3. 阵列杂交质量
  4. 现场质量
每个步骤必须按顺序执行,如图2所示。

微阵列实验质量控制步骤

图2:斑点阵列实验的质量控制

我们的包提供了图形化工具来查看其中的两个组件:打印运行质量和数组杂交质量。
  1. 打印质量
    这个组件是高度定制的共享基因组核心设施在UCSF,但框架可以适应其他核心设施或实验室打印他们的阵列。它是打印阵列实验中必不可少的组成部分,因为任何打印针、探针或载玻片表面缺陷都会影响载玻片的杂交质量,而这是无法通过统计来解决的。只有通过质量控制检查的印刷品才会用于实际的杂交。

  2. 杂化质量
    这是对杂交性能的全面评估。例如,它有助于确定染料的任何问题,或不均匀的杂交。然后,一旦你确定你的杂交是好的,你可以查看每个单独的斑点质量,去除坏点,并进行统计分析。

4.一般杂交品质

这个组件的目的是在任何预处理步骤或对单个点进行进一步的质量评估之前,验证您的杂交性能,给定幻灯片的良好质量。在这里,您可以确定您的实验质量是否足以让数组进入数据集。例如,您将需要删除任何具有非常低信噪比的杂化,或较大的空间伪影。

我们的包提供了两种质量控制图。第一个是作为诊断图的定性质量控制测量。这是一种快速直观的方法来确定杂交质量收集信息从几个统计工具。关于单个诊断图的更多细节可以在软件包中的小插图“marrayPlots”中找到marray.第二个是幻灯片质量的定量比较。我们从测试幻灯片中提取一些统计措施,并将其与“质量良好”的幻灯片收集的结果进行比较,以评估杂交的质量。这种对比通过对比箱线图进行可视化。结果显示在HTML报告中。图5显示了一个典型HTML报告的屏幕截图。用户可以单击每张图像以获得更高分辨率的图。

可以根据不同的图像处理软件格式生成诊断图:GenePix格式文件(。gpr文件),Spot格式文件(.spot)和Agilent格式文件,或从marrayRawRGList对象。大多数参数也可以自定义以匹配您自己的数据:哪些探针用作控件,图像处理输出文件的哪一列用于定义您的spot类型……您还可以使用这些函数指定自己的高质量幻灯片集合globalQuality而且qualRefTable.有关这些功能的详细介绍,请参见具体的联机帮助。

4.1从gpr文件生成质量图:gpQuality ()

我们提供3个主要功能来生成高质量的图:gpQuality(), spotQuality()和agQuality().我们将使用gpQuality作为示例,但是下面的命令可以直接应用于spotQuality或agQuality。gpQuality ()将生成诊断图和比较箱形图。它默认使用UCSF功能基因组学核心设施的点类型。要使用您自己的斑点类型,请参阅本节末尾。[移除或不移除]

-复制gpr文件从同样的称(相同的GAL文件)在一个目录。

-如第3节所述,将R工作目录更改为包含gpr文件的目录

-生成诊断图和比较箱形图在目录下的所有文件上运行:
> result <- gpQuality(有机体= " Mm ")

-生成仅限诊断图运行:
> result <- gpQuality(有机体="Mm", compBoxplot="FALSE")
在这种情况下,将不计算定量质量度量,而计算HTML报告生成。

-写下你的定量质量度量和规范化数据到一个文件中:设置输出= TRUE当调用gpQuality
> result <- gpQuality(有机体="Mm", output=TRUE)

该命令将创建两个文件:quality.txt,其中包含您的质量测量,以及NormalizedData.xls,其中包含规范化的M值。

如果你设置了compBoxplot = FALSE,不计算定量质量测量。因此,您将不会生成quality.txt文件。


4.2生成高质量的图marrayRaw / RGList对象:maQualityPlots

此函数可用于获取由其他图像处理软件(如Spot)生成的数据的质量图。maQualityPlots ()将只生成诊断图。它使用创建R对象时定义的点类型。类中读取数据的详细信息marrayRaw或者一个RGList对象,请参考marraylimma 包小插曲。

-生成诊断图:如果rawdata是你的marrayRaw / RGList对象类型:
> maQualityPlots (rawdata)


4.3结果

gpQuality ()输出

对于每一张幻灯片,您将在报告中发现有多少幻灯片的结果低于推荐范围。如果要指定存储结果的目录,可以通过修改参数来实现resdir相应的行动。如欲了解更多有关gpQuality参数,请参考此函数的联机帮助。


gpQuality HTML报告示例
图5:gpQuality生成的HTML报告示例


maQualityPlots ()
输出:

4.4限制

gpQuality调用两个关键函数,maQualityPlots而且qualBoxplotqualBoxplot只支持小鼠(Mm)和人类(Hs)基因组。为了为其他基因组生成高质量的图,你需要设置gpQuality论点compBoxplot = FALSE.在这种情况下,只会生成诊断图。


4.5诊断图描述:

图6是一个很好的杂交诊断图的例子。

  1. 原始m的ma图不做背景减法。彩色线代表每个印尖组的黄土曲线。红点突出了相应加权值小于0的点。用户可以创建自己的称重方案或功能。在MA-plot中要寻找的是点的饱和度和黄土曲线的趋势,这是要执行的归一化量的一个指标。
  1. 标准化数据密度的ma图。默认情况下,使用打印尖端黄土归一化。我们没有使用典型的ma图,而是使用了“hexbin,以突出ma图上的点密度。浅黄色表示点的密度高,而蓝色表示密度低。该图为您提供了大量数据强度(低/高信号)的信息。
  1. 原始M值排序的空间图(无背景减法):每个点根据其M值进行排序。我们使用蓝色到黄色的颜色刻度,其中蓝色代表较高的等级(1),黄色代表较低的等级。缺失的点用白色方块表示。这是一种直观检测不均匀杂交和缺失点的快速方法。
  1. 归一化M值秩的空间图。默认情况下,使用打印尖端黄土归一化。每个点根据其M值进行排名。我们使用蓝色到黄色的颜色刻度,其中蓝色代表较高的等级(1),黄色代表较低的等级。缺失的点用白色方块表示。此外,标记的点被一个黑色方块突出显示。这种类型的图形表示有助于验证规范化是否删除了任何空间影响。
  1. 原始A值的空间图。颜色表示信号强度的强弱,即颜色越深,信号越强。缺失的点用白色表示。
  1. Cy5和Cy3通道的信噪比(SNR)直方图。信号的均值和方差被打印在直方图的顶部。此外,还突出显示了不同控制类型(状态)下信噪比分层的叠加密度。它们的配色方案如表1所示。信噪比是染料问题的一个很好的指标。负的和空的控制密度线应该更接近,几乎重叠。
  1. 点图控件归一化M值。超过3个重复的对照在y轴上表示,配色方案如表1所示。控制M值应紧。并且接近于0。
  1. 控件A值的点图,没有背景减法。超过3个重复的对照在y轴上表示,配色方案如表1所示。阳性对照的强度应在高强度区域,阴性和空对照应在低强度区域。阳性控制范围和阴性/空控制范围应该分开。

4.6对比箱线图描述:

图7显示了一个比较箱线图的示例。

我们选择了广泛的措施来量化典型杂交的质量:单通道措施(前景信号的范围,背景的MAD,信噪比…),两个通道措施(每种类型的控制的中值a值,所需的归一化量…),标记点的百分比…一些措施已被否定,质量量表有从问题到良好的增长趋势。

对于每一项测量,我们在图表上表示如下:

-参考幻灯片值的箱线图。

-1和3理查德·道金斯为每个箱线图缩放前的分位数。

-右边的y轴:对于每个测量,我们打印了2个值。第一个是参考幻灯片在你的幻灯片结果下的百分比。第二个是缩放前的幻灯片值。

-我们已经将所有结果按比例缩放,以便能够在同一图表上进行比较。

-红点是测试幻灯片的缩放值


我们选择的15个措施如下表所示。

除非另有说明:

Cy5fg中位数对应gpr文件的“F635 Median”列。
Cy3fg中位数对应gpr文件的“F532 Median”列。
Cy5fg的意思是对应gpr文件的“F635 Mean”列。
Cy3fg的意思是对应gpr文件的“F532 Mean”列。
Cy5bg对应gpr文件的“B635 Median”列。
Cy3bg对应gpr文件的“B532 Median”列。
M = log2(Cy5fg中位数) - log2(Cy3fg中位数
A = [log]2(Cy5fg中位数) + log2(Cy3fg中位数)] / 2。

的名字

描述

细节

1

rangeRf

Cy5前景范围。

max(日志2Cy5fg中位数) - min(log2Cy5fg中位数)。

2

rangeGf

Cy3前景范围。

max(日志2Cy3fg中位数) - min(log2Cy3fg中位数).

3.

- - - - - -madRb

Cy5背景的MAD。

疯了(日志2Cy5bg)。

4

- - - - - -madGb

Cy3背景的MAD。

疯了(日志2Cy3bg)。

5

medRS2N

Cy5的中位信噪比对数。

中位数(RS2N)与RS2N = log2(Cy5fg . log的意思是/ Cy5bg)。

6

medGS2N

Cy3的中值信噪比对数。

中位数(GS2N), GS2N = log2(Cy3fg . log)的意思是/ Cy3bg)。

7

- - - - - -medA_empty

空控件的中值A。

-(中位数在哪里”,表示标记为“空”的控制探测集。

8

- - - - - -medA_negative

阴性对照的中位A值。

-(中位数在哪里”,指的是标记为“负”的控制探测集。

9

medA_positive

阳性对照的中位数A值。

-中位数A[积极的在哪里”积极的,指标记为“阳性”的控制探针组。

10

diffA_pos-neg

阳性和阴性对照的A值之差。

(中位数积极的] -(中位数

11

- - - - - -msePTip

打印尖端组对M值的MSE,无背景减法。

MSE =均方误差

12

- - - - - -mseFit

低曲线的均方误差

适合=低(A, M)
mseFit = MSE(fit$y)(在度量11中定义)

13

- - - - - -百分比国旗

确定标志小于0的点的百分比。

Flag是来自gpr文件“Flags”列的信息。

14

- - - - - -madMMR

使用平均值和中位数计算的M值的对数比。

——[log2 (Cy5fg的意思是/ Cy3fg的意思是) - log2(Cy5fg .中位数/ Cy3fg中位数)]

15

极端的MMR

有abs[MMR]斑点的百分比> 0.5

MMR的定义见措施14。

4.7的例子

本例的数据由UCSF的功能基因组学核心设施提供。我们已经测试了从“9Mm”打印的幻灯片编号“137”。该阵列使用Operon Version 2小鼠寡核苷酸制作,杂交测量小鼠肝脏和小鼠参考库两个RNA样本中的差异基因表达。结果如图5和图6所示。

要生成诊断图、比较箱形图、HTML报告,并将质量测量和规范化数据写入名为“Results”目录下的文件:

>库(arrayQuality)

> datadir <- system。文件(“gprQCData”,包=“arrayQuality”)

> result <- gpQuality(fnames = "9Mm137. "Gpr ", path = datadir,有机体= " Mm ", output = TRUE, resdir = "Results")


一般杂交诊断图实例

图6:一般杂交质量诊断图


一般杂交质量:比较箱线图

图7:对比箱线图