内容

作者:马丁•摩根
时间:2019年7月22日

1R

1.1的历史R而且凹口

  • 统计编程语言。1992年完成,1996年初始版本,2000年稳定测试版;的实现年代。CRAN成立于1997年。
  • “免费”软件:无成本、开源、广泛使用。
  • 可扩展:包(15,000 on凹口, 1750年Bioconductor
  • 关键特性
    • 内在统计概念
    • 矢量化计算
    • “老派的”脚本,而不是图形用户界面-伟大的再现性!
    • (高级)copy-on-changesemanatics

1.2向量和数据帧

1 + 2
## [1]
X = c(1,2,3) 1:3 #从1到3的整数序列
## [1] 1 2 3
X + c(4,5,6) #向量化
## [1] 5 7 9
X + 4 #回收
## [1] 5 6 7

向量

  • 数字()字符()逻辑()整型()复杂的(),……
  • NA:“不可用”
  • 因素():来自受限制的“级别”集合的值。

操作

  • 数字:= =<< =>> =,……
  • 逻辑:|(或),(和)(不)
  • 子集:,例如,x [c(2、3)
  • 任务:(< -,例如,X [c(1,3)] = X [c(1,3)]
  • 其他:is.na ()

功能

X = rnorm(100) y = X + rnorm(100) plot(X, y)

  • 许多!

data.frame

df <- data.frame(Independent = x, Dependent = y)
##独立的依赖## 1 -0.4338047 -0.5779168 ## 2 -0.2769985 -1.0665115 ## 3 -1.6966211 -1.8769578 ## 4 -0.6481076 -0.9540841 ## 5 -2.1015776 -1.1166887 ## 6 0.7109163 -0.3363154
df (1:5, 1:2)
##独立依赖## 1 -0.4338047 -0.5779168 ## 2 -0.2769985 -1.0665115 ## 3 -1.6966211 -1.8769578 ## 4 -0.6481076 -0.9540841 ## 5 -2.1015776 -1.1166887
df [1:5]
##独立依赖## 1 -0.4338047 -0.5779168 ## 2 -0.2769985 -1.0665115 ## 3 -1.6966211 -1.8769578 ## 4 -0.6481076 -0.9540841 ## 5 -2.1015776 -1.1166887
plot(Dependent ~ Independent, df) # 'formula'界面

  • 等长度向量的列表
  • 向量可以是不同的类型
  • 二维子集与赋值
  • 列访问:df [1]df(,“它”)df ([1])df[["它"]]它的df美元

练习:只绘制值依赖> 0独立> 0

  1. 选择行

    rix <- (df$Independent > 0) & (df$Independent > 0)
  2. 情节子集

    plot(Dependent ~ Independent, df[ridx,])

  3. 换一种方法去皮

    plot(Independent ~ Independent, df,子集= (Independent > 0) & (Independent > 0))

1.3分析:函数、类、方法

fit <- lm(Dependent ~ Independent, df) #线性模型-回归方差分析(fit) #汇总表
##方差分析表## ##响应:依赖## Df Sum Sq Mean Sq F value Pr(>F) ##独立1 92.664 92.664 70.32 3.787e-13 *** ##残差98 129.139 1.318 ##—##符号。代码:0 '***' 0.001 '**' 0.01 '*' 0.05 '。' 0.1 ' ' 1
图(独立的~独立的,df)

  • lm ():普通旧函数
  • 适合:一个对象" lm "类的
  • 方差分析():一个通用的用一个特定的方法对于类" lm "
类(适合)
## [1] "lm"
方法(class = " lm”)
## [1] add1 alias anova case.names ##[5]强制限制厨师。距离偏差## [9]dfbeta dfbetas drop1 dummy。coef ## [13] effects extractAIC family formula ## [17] hatvalues influence initialize kappa ## [21] labels logLik model.frame model。[25] nobs plot predict print ## [29] proj qr residuals rstandard ## [33] rstudent show simulate slotsFromS3 ## [37] summary variable.names vcov ## see '?方法来访问帮助和源代码

1.4的帮助!

"plot" #普通老函数还是通用函数?"公式“# method ?”Lm " #方法用于类' Lm '的对象,plot(fit)

1.5

库(ggplot2) ggplot(df, aes(x = Independent, y = Dependent)) + geom_point() + geom_smooth(method = "lm")

  • 一般用途:>上15000个包凹口
  • 获得贡献者的领域专业知识而且怪异的(或其他)癖好
  • 安装(每台计算机一次)vs负载(通过库(ggplot2),每节一次)

2Bioconductor

2002年开始作为一个理解微阵列数据分析的平台

2.1

1750包。专业领域:

  • 测序(RNASeq, ChIPSeq,单细胞,称为变体,…)
  • 微阵列(甲基化,表达,拷贝数,…)
  • 流式细胞术
  • 蛋白质组学
  • ...

重要的主题

  • 可再生的研究
  • 包和工作流程之间的互操作性
  • 可用性

资源

2.2对象

的一个显著特征Bioconductor-使用对象用于表示数据

库(生物字符串)dna <- DNAStringSet(c("AACTCC", "CTGCA")) dna
一个长度为2的DNAStringSet实例## width seq ## [1] 6 aactcc# # [2] 5 CTGCA
reverseComplement (dna)
长度为2的DNAStringSet实例## width seq# # [1] 6 GGAGTT ## [2] 5 TGCAG
  • Biostrings: DNA, RNA, AA表示和操作
  • GenomicRanges:基因组空间坐标
  • SummarizedExperiment:将“分析”数据(例如,RNASeq实验的计数)与行和列注释(例如,关于样品和实验处理的信息)相协调。

2.3高通量序列工作流程

网站,//www.anjoumacpherson.com

1750个“软件”包//www.anjoumacpherson.com/packages

  • 序列分析(RNASeq, ChIPSeq,称为变体,拷贝数,单单元)
  • 微阵列(甲基化,拷贝数,经典表达,…)
  • 注释(关于注释的更多信息今天上午稍后介绍…)
  • 流式细胞术
  • 蛋白质组学、图像分析……

发现和使用,例如:DESeq2

  • 登陆页:标题,描述(摘要),安装说明,徽章
  • 小插曲!

另外:

  • “注释”包
  • “实验数据”包
  • 工作流
  • 课程材料,……

3.结束问题

3.1会话信息

sessionInfo ()
## R版本3.6.1 Patched (2019-07-16 r76845) ##平台:x86_64-apple-darwin17.7.0(64位)##运行在:macOS High Sierra 10.13.6 ## ## Matrix products: default ## BLAS: /Users/ma38727/bin/R-3-6-branch/lib/libRblas. #dylib ## LAPACK: /Users/ma38727/bin/R-3-6-branch/lib/libRlapack。dylib # # # #语言环境:# # [1]en_US.UTF-8 / en_US.UTF-8 en_US.UTF-8 / C / en_US.UTF-8 / en_US。UTF-8 ## ##附加的基本包:## [1]stats4 parallel stats graphics grDevices utils datasets ## [8] methods base ## ##其他附加的包:## [1]Biostrings_2.53.2 XVector_0.25.0 IRanges_2.19.10 ## [4] S4Vectors_0.23.17 biocgenerics_0.315 # ggplot2_3.2.0 ## [7] BiocStyle_2.13.2 ## ##通过命名空间加载(并没有附加):## [1] Rcpp_1.0.1 pillar_1.4.2 compiler_3.6.1 ## [4] BiocManager_1.30.4 zlibbioc_1.31.0 tools_3.6.1 ## [7] digest_0.6.20 evaluate_0.14 tibble_2.1.3 ## [10] gtable_0.3.0 pkgconfig_0.0.2 rlang_0.4.0 ## [13] yaml_2. 3.0 xfun_0.8 withr_2.1.2 ## [13] grid_3.6.1 tidyselect_0.2.5 glue_1.3.1 ## [19] grid_3.6.1 tidyselect_0.2.5 glue_1.3.1 ## [25] purrr_0.3.2 magrittr_1.5 scales_1.0.0 ## [28] codetools_0.2-16 htmltools_0.3.6 assertthat_0.2.1 ## [7] digest_0.6.20 pkgconfig_0.14 rlang_0.4.0 ## [13]Colorspace_1.4-1 labeling_0.3 stringi_1.4.3 ## [34] lazyeval_0.2.2 munsell_0.5.0 crayon_1.3.4

3.2确认

本教程中报告的研究得到了美国国家人类基因组研究所和美国国立卫生研究院国家癌症研究所的支持,资助号为U41HG004059和U24CA180996。

该项目已获得欧洲研究理事会(ERC)在欧盟“地平线2020”研究与创新计划(资助协议编号633974)下的资助。