CSAW书
作者:亚伦·伦[AUT,CRE]
版本:1.4.1
修改的:2021-08-28
编译:2022-08-29
环境:R版本4.2.1(2022-06-23),生物导体3.15
执照:GPL-3
版权:生物导体,2020年
资源:https://github.com/ltla/csawusersguide
第1章欢迎
1.1介绍
测序(CHIP-SEQ)的染色质免疫沉淀是一种广泛使用的技术,用于识别靶蛋白的基因组结合位点。CHIP-SEQ数据的常规分析旨在根据读取覆盖率中的峰值检测绝对结合(即存在或不存在结合位点)。另一种分析策略是检测条件之间的结合曲线的变化(Ross-Innes等。2012;Pal等。2013)。这些差异结合(DB)分析涉及将读取为基因组间隔,并测试这些条件之间的显着差异。这定义了一组推定的DB区域以进行进一步检查。在统计上,DB分析比其常规对应物更容易执行,因为当在同一基因组区域比较不同文库的计数时,基因组偏差的效果会大大减轻。DB区域也可能更相关,因为结合的变化可能与条件之间的生物学差异有关。
这本书描述了使用CSAW在滑动窗口的ChIP-Seq实验中检测差异结合(DB)的生物导体包装(Lun和Smyth2016)。在这些分析中,我们在A中检测并总结了条件之间的DB区域从头方式,即,没有对边界区域的位置或宽度做出任何事先假设。我们证明了来自各种实际研究的数据,重点是转录因子结合和组蛋白标记富集的变化。我们的目的是通过提供详细的代码和预期输出来促进基于窗口的DB分析的实际实施。此处的代码可以适用于具有多个实验条件的任何数据集,并在一个或多个条件下具有多个生物样品;同样,它可以简单地适应批处理效应,协变量和其他实验因素。确实,尽管本书的重点是芯片序列,但可以将相同的软件适应来自任何测序技术的数据,其中读取代表了富含基因组区域的覆盖范围。
1.2如何读这本书
本书中的描述探讨了每个步骤背后的理论和实用动机CSAW分析。虽然欢迎所有用户从头到尾阅读它,但新用户可能更喜欢检查以后部分中介绍的案例研究(Lun和Smyth2015),以更简洁的格式提供重要信息。经验丰富的用户(或那些正在寻找夜间阅读的用户!)更有可能从本文档中的深入讨论中受益。
此处描述的所有工作流程从分类和索引的BAM文件开始chipseqdbdata包裹。要应用于用户指定的数据,必须事先将原始读取序列与适当的参考基因组对齐。大多数对齐器都可以用于此目的,但是我们已经使用了rsubread(Liao,Smyth和Shi2013)由于其R界面的便利性。还建议使用诸如皮卡德
在开始工作流程之前。
此处描述的统计方法是基于EDGER包裹(鲁滨逊,麦卡锡和史密斯2010年)。的知识EDGER是有用的,但不是阅读本指南的前准则。
1.3如何获得帮助
大多数问题CSAW应该通过文档回答。本指南中提到的每个功能都有自己的帮助页面。例如,对参数和输出的详细描述WindowCounts()
可以通过键入获得功能?窗口
或者帮助(WindowCounts)
在R提示下。有关方法或基础理论的更多详细信息可以在每个帮助页面底部的参考文献中找到。
软件包的作者始终感谢您在软件包功能或文档中收到错误的报告。对改进的精心建议也是如此。有关如何使用的其他问题CSAW最好发送到生物导体支持地点。请向支持网站发送一般帮助和建议的请求,而不是向个人作者发送请求。第一次发布到支持网站的用户可能会发现阅读发布指南。
1.4如何引用这本书
大多数用户CSAW应在任何出版物中引用以下内容:
A. T. Lun和G. K. Smyth。CSAW:使用滑动窗口对CHIP-SEQ数据进行微分绑定分析的生物处理程序包。核酸res。,44(5):E45,2016年3月
为了特别引用工作流,我们可以使用:
A. T. L. Lun和G. K. Smyth。从读取到区域:一个生物导体工作流程,以检测芯片序列数据中的差异结合。F1000 Research,4,2015
适用于对合并感兴趣的人\(p \)- 值,他们在DB分析中的使用是:
A. T. Lun和G. K. Smyth。使用峰值和窗口对芯片序列数据进行差异结合区域的从头检测:正确控制错误率。核酸res。,42(11):E95,2014年7月
1.5快速开始
典型的芯片序列分析CSAW看起来像下面描述的那样。这假设提供了分类和索引的BAM文件的文件路径向量,并在提供中提供了一个设计矩阵。该代码分为几个步骤:
图书馆(chipseqdbdata)nfyadata()头(tf.data,-1)#跳过输入。TF.Data$小路子((“ nf-ya([^]+)。*”,,,,“\\1“,TF.Data$描述)model.matrix((〜因素(cell.type))Colnames(设计)< -C((“截距”,,,,“ cell.type”)
从BAM文件中加载数据。
滤除无趣的区域。
计算归一化因素。
识别数据库窗口。
纠正多次测试。
会话信息
R版本4.2.1(2022-06-23)平台:x86_64-pc-linux-gnu(64位)下运行:ubuntu 20.04.4 lts矩阵产品:默认布拉斯:/home/biocbuild/biocbuild/bbs-3.15-bioc/r/lib/librblas.so lapack:/home/biocbuild/bbs-3.15-bioc/r/lib/librlapack.so locale:[1] lc_ctype = en_us.utf-8 lc_numeric = c [3]= c [5] lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 [7] lc_paper = en_us.utf-8 lc_name = c [9] lc_address = c lc_telephOne = c lc_telephone = c [11]8LC_IDENTIFICATION=C attached base packages: [1] stats4 stats graphics grDevices utils datasets methods [8] base other attached packages: [1] edgeR_3.38.4 limma_3.52.2 [3] csaw_1.30.1 SummarizedExperiment_1.26.1 [5] Biobase_2.56.0 MatrixGenerics_1.8.1 [7] matrixStats_0.62.0 GenomicRanges_1.48.0 [9] GenomeInfoDb_1.32.3 IRanges_2.30.1 [11] S4Vectors_0.34.0 BiocGenerics_0.42.0 [13] chipseqDBData_1.12.0 BiocStyle_2.24.0 loaded via a namespace (and not attached): [1] bitops_1.0-7 bit64_4.0.5 [3] filelock_1.0.2 httr_1.4.4 [5] tools_4.2.1 bslib_0.4.0 [7] utf8_1.2.2 R6_2.5.1 [9] DBI_1.1.3 tidyselect_1.1.2 [11] bit_4.0.4 curl_4.3.2 [13] compiler_4.2.1 rebook_1.6.0 [15] graph_1.74.0 cli_3.3.0 [17] DelayedArray_0.22.0 bookdown_0.28 [19] sass_0.4.2 rappdirs_0.3.3 [21] stringr_1.4.1 digest_0.6.29 [23] Rsamtools_2.12.0 rmarkdown_2.16 [25] XVector_0.36.0 pkgconfig_2.0.3 [27] htmltools_0.5.3 dbplyr_2.2.1 [29] fastmap_1.1.0 rlang_1.0.4 [31] RSQLite_2.2.16 shiny_1.7.2 [33] jquerylib_0.1.4 generics_0.1.3 [35] jsonlite_1.8.0 BiocParallel_1.30.3 [37] dplyr_1.0.9 RCurl_1.98-1.8 [39] magrittr_2.0.3 GenomeInfoDbData_1.2.8 [41] Matrix_1.4-1 Rcpp_1.0.9 [43] fansi_1.0.3 lifecycle_1.0.1 [45] stringi_1.7.8 yaml_2.3.5 [47] zlibbioc_1.42.0 BiocFileCache_2.4.0 [49] AnnotationHub_3.4.0 grid_4.2.1 [51] blob_1.2.3 parallel_4.2.1 [53] promises_1.2.0.1 ExperimentHub_2.4.0 [55] crayon_1.5.1 lattice_0.20-45 [57] dir.expiry_1.4.0 splines_4.2.1 [59] Biostrings_2.64.1 KEGGREST_1.36.3 [61] locfit_1.5-9.6 CodeDepends_0.6.5 [63] metapod_1.4.0 knitr_1.40 [65] pillar_1.8.1 codetools_0.2-18 [67] XML_3.99-0.10 glue_1.6.2 [69] BiocVersion_3.15.2 evaluate_0.16 [71] BiocManager_1.30.18 png_0.1-7 [73] vctrs_0.4.1 httpuv_1.6.5 [75] purrr_0.3.4 assertthat_0.2.1 [77] cachem_1.0.6 xfun_0.32 [79] mime_0.12 xtable_1.8-4 [81] later_1.3.0 tibble_3.1.8 [83] AnnotationDbi_1.58.0 memoise_2.0.1 [85] statmod_1.4.37 ellipsis_0.3.2 [87] interactiveDisplayBase_1.34.0
参考书目
Liao,Y.,G。K. Smyth和W. Shi。2013年。“亚线路对准器:通过种子和投票的快速,准确和可扩展的读映射。”核酸res。41(10):E108。
Lun,A。T. L.和G. K. Smyth。2015年。“从读取到区域:一种生物导体工作流程,以检测芯片序列数据中的差异结合。”F1000 Research4。
Lun,A.,2016年。“ CSAW:使用滑动窗口对CHIP-SEQ数据进行微分结合分析的生物处理程序包。”核酸res。44(5):E45。
Pal,B.,T。Bouras,W。Shi,F。Vaillant,J。M。Sheridan,N。Fu,K。Breslin等。2013年。“乳腺表观基因组的全球变化是由荷尔蒙提示引起的,并由EZH2协调。”细胞代表。3(2):411–26。
Robinson,M。D.,D。J. McCarthy和G. K. Smyth。2010年。“ EDGER:用于数字基因表达数据差异表达分析的生物导体套件。”生物信息学26(1):139–40。
Ross-Innes,C。S.,R。Stark,A。E. Teschendorff,K。A. Holmes,H。R. Ali,M。J. Dunning,G。D. Brown等。2012年。“雌激素受体结合差异与乳腺癌的临床结局有关。”自然481(7381):389–93。