尝试从R中的基因序列返回指定数目的字符

r string split substr

154 观看

3回复

0 作者的声誉

我有一个DNA序列,例如: cgtcgctgtttgtcaaagtcg....

长度可能超过1000个字母。

但是,我只想查看例如5到200的字母,并将字符串的这个子集定义为新对象。

我尝试查看该nchar函数,但还没有找到可以做到这一点的东西。

作者: user180787 的来源 发布者: 2009 年 9 月 28 日

回应 (3)


9

42454 作者的声誉

决定

尝试

substr("cgtcgctgtttgtcaa[...]", 5, 200)

参见substr()

作者: Artelius 发布者: 28.09.2009 11:15

6

82022 作者的声誉

使用子字符串功能:

> tmp.string <- paste(LETTERS, collapse="")
> tmp.string <- substr(tmp.string, 4, 10)
> tmp.string
[1] "DEFGHIJ"
作者: Shane 发布者: 28.09.2009 11:16

3

2565 作者的声誉

另请参阅Bioconductor软件包Biostrings,如果您需要处理较大的生物序列或序列集,这是一个不错的选择。

#source("http://bioconductor.org/biocLite.R");biocLite("Biostrings") 
library(Biostrings)
s <-paste(rep("gtcgctgtttgtcaac",20),collapse="")
d <- DNAString(s)
d[5:200]
as.character(d[5:200])
作者: Paolo 发布者: 30.09.2009 12:25
32x32