北京大学R语言教程(李东风)第7章: R向量下标和子集

在R中下标与子集是极为强大的功能,
需要一些练习才能熟练掌握,
许多其它语言中需要多个语句才能完成的工作在R中都可以简单地通过下标和子集来完成。

7.1 正整数下标

对向量x, 在后面加方括号和下标可以访问向量的元素和子集。

x <- c(1, 4, 6.25)
x[2]取出第二个元素;
x[2] <- 99修改第二个元素。
x[c(1,3)]取出第1、3号元素;
x[c(1,3)] <- c(11, 13)修改第1、3号元素。
下标可重复。
例如

x <- c(1, 4, 6.25)
x[2]
## [1] 4
x[2] <- 99; x
## [1]  1.00 99.00  6.25
x[c(1,3)]
## [1] 1.00 6.25
x[c(1,3)] <- c(11, 13); x
## [1] 11 99 13
x[c(1,3,1)]
## [1] 11 13 11

7.2 负整数下标

负下标表示扣除相应的元素后的子集,如

x <- c(1,4,6.25)
x[-2]
## [1] 1.00 6.25
x[-c(1,3)]
## [1] 4

负整数下标不能与正整数下标同时用来从某一向量中取子集,
比如,x[c(1,-2)]没有意义。

7.3 空下标与零下标

x[]表示取x的全部元素作为子集。
这与x本身不同,比如

x <- c(1,4,6.25)
x[] <- 999
x
## [1] 999 999 999
x <- c(1,4,6.25)
x <- 999
x
## [1] 999

x[0]是一种少见的做法,
结果返回类型相同、长度为零的向量,
numeric(0)
相当于空集。

当0与正整数下标一起使用时会被忽略。
当0与负整数下标一起使用时也会被忽略。

7.4 下标超界

设向量x长度为n,
则使用正整数下标时下标应在{1,2,…,n}中取值。
如果使用大于n的下标,
读取时返回缺失值,并不出错。
给超出n的下标元素赋值,
则向量自动变长,
中间没有赋值的元素为缺失值。
例如

x <- c(1,4,6.25)
x[5]
## [1] NA
x
## [1] 1.00 4.00 6.25
x[5] <- 9
x
## [1] 1.00 4.00 6.25   NA 9.00

虽然R的语法对下标超界不视作错误,
但是这样的做法往往来自不良的程序思路,
而且对程序效率有影响,
所以实际编程中应避免下标超界。

7.5 逻辑下标

下标可以是与向量等长的逻辑表达式,
一般是关于本向量或者与本向量等长的其它向量的比较结果,如

x <- c(1,4,6.25)
x[x > 3]
## [1] 4.00 6.25

取出x的大于3的元素组成的子集。

逻辑下标除了用来对向量取子集,
还经常用来对数据框取取子集,
也用在向量化的运算中。
例如,对如下示性函数

f(x)={1,0,x≥0x<0

输入向量x,结果y需要也是一个向量,程序可以写成

f <- function(x){
  y <- numeric(length(x))
  y[x >= 0] <- 1
  y[x < 0] <- 0 # 此语句多余
  
  y
}

事实上,向量化的逻辑选择有一个ifelse()函数,
比如,对上面的示性函数,
如果x是一个向量,
输出y向量可以写成y <- ifelse(x>=0, 1, 0)

要注意的是,如果逻辑下标中有缺失值,
对应结果也是缺失值。
所以,在用逻辑下标作子集选择时,
一定要考虑到缺失值问题。正确的做法是加上!is.na前提,

x <- c(1, 4, 6.25, NA)
x[x > 2]
## [1] 4.00 6.25   NA
x[!is.na(x) & x > 2]
## [1] 4.00 6.25

7.6 which()which.min()which.max()函数

函数which()可以用来找到满足条件的下标,

x <- c(3, 4, 3, 5, 7, 5, 9)
which(x > 5)
## [1] 5 7
seq(along=x)[x > 5]
## [1] 5 7

这里seq(along=x)会生成由x的下标组成的向量。
which.min()which.max求最小值的下标和最大值的下标,
不唯一时只取第一个。如

which.min(x)
## [1] 1
which.max(x)
## [1] 7

7.7 元素名

向量可以为每个元素命名。如

ages <- c("李明"=30, "张聪"=25, "刘颖"=28)

ages <- c(30, 25, 28)
names(ages) <- c("李明", "张聪", "刘颖")

ages <- setNames(c(30, 25, 28), c("李明", "张聪", "刘颖"))

这时可以用元素名或元素名向量作为向量的下标,如

ages["张聪"]
## 张聪 
##   25
ages[c("李明", "刘颖")]
## 李明 刘颖 
##   30   28
ages["张聪"] <- 26

这实际上建立了字符串到数值的映射表。

用字符串作为下标时,
如果该字符串不在向量的元素名中,
读取时返回缺失值结果,
赋值时该向量会增加一个元素并以该字符串为元素名。

带有元素名的向量也可以是字符型或其它基本类型,如

sex <- c("李明"="男", "张聪"="男", "刘颖"="女")

除了给向量元素命名外,
在矩阵和数据框中还可以给行、列命名,
这会使得程序的扩展更为容易和安全。

R允许仅给部分元素命名,
这时其它元素名字为空字符串。
不同元素的元素名一般应该是不同的,
否则在使用元素作为下标时会发生误读,
但是R语法允许存在重名。

unname(x)返回去掉了元素名的x的副本,
names(x) <- NULL可以去掉x的元素名。

7.8 用R向量下标作映射

R在使用整数作为向量下标时,允许使用重复下标,
这样可以把数组x看成一个1:n的整数到
x[1], x[2], , x[n]的一个映射表,
其中nx的长度。
比如,某商店有三种礼品,编号为1,2,3,
价格分别为68, 88和168。令

price_map <- c(68, 88, 168)

设某个收银员在一天内分别售出礼品编号为3,2,1,1,2,2,3,
可以用如下的映射方式获得售出的这些礼品对应的价格:

items <- c(3,2,1,1,2,2,3)
y <- price_map[items]; print(y)
## [1] 168  88  68  68  88  88 168

R向量可以用字符型向量作下标,
字符型下标也允许重复,
所以可以把带有元素名的R向量看成是元素名到元素值的映射表。
比如,设sex为10个学生的性别(男、女)

sex <- c("男", "男", "女", "女", "男", "女", "女", "女", "女", "男")

希望把每个学生按照性别分别对应到蓝色和红色。
首先建立一个R向量当作映射

sex_color <- c("男"="blue", "女"="red")

用R向量sex.color当作映射,可以获得每个学生对应的颜色

cols <- sex_color[sex]; print(cols)
##     男     男     女     女     男     女     女     女     女     男 
## "blue" "blue"  "red"  "red" "blue"  "red"  "red"  "red"  "red" "blue"

这样的映射结果中带有不必要的元素名,
unname()函数可以去掉元素名,如

unname(cols)
##  [1] "blue" "blue" "red"  "red"  "blue" "red"  "red"  "red"  "red"  "blue"

7.9 集合运算

可以把向量x看成一个集合,但是其中的元素允许有重复。
unique(x)可以获得x的所有不同值。如

unique(c(1, 5, 2, 5))
## [1] 1 5 2

a %in% x判断a的每个元素是否属于向量x,如

5 %in% c(1,5,2)
## [1] TRUE
c(5,6) %in% c(1,5,2)
## [1]  TRUE FALSE

%in运算符类似,
函数match(x, table)对向量x的每个元素,
从向量table中查找其首次出现位置并返回这些位置。
没有匹配到的元素位置返回NA_integer_(整数型缺失值)。

match(5, c(1,5,2))
## [1] 2
match(5, c(1,5,2,5))
## [1] 2
match(c(2,5), c(1,5,2,5))
## [1] 3 2
match(c(2,5,0), c(1,5,2,5))
## [1]  3  2 NA

intersect(x,y)求交集,结果中不含重复元素,如

intersect(c(5, 7), c(1, 5, 2, 5))
## [1] 5

union(x,y)求并集,结果中不含重复元素,如

union(c(5, 7), c(1, 5, 2, 5))
## [1] 5 7 1 2

setdiff(x,y)求差集,即x的元素中不属于y的元素组成的集合,
结果中不含重复元素,如

setdiff(c(5, 7), c(1, 5, 2, 5))
## [1] 7

setequal(x,y)判断两个集合是否相等,
不受次序与重复元素的影响,如

setequal(c(1,5,2), c(2,5,1))
## [1] TRUE
setequal(c(1,5,2), c(2,5,1,5))
## [1] TRUE

7.10 练习

设文件class.csv内容如下:

name,sex,age,height,weight
Alice,F,13,56.5,84
Becka,F,13,65.3,98
Gail,F,14,64.3,90
Karen,F,12,56.3,77
Kathy,F,12,59.8,84.5
Mary,F,15,66.5,112
Sandy,F,11,51.3,50.5
Sharon,F,15,62.5,112.5
Tammy,F,14,62.8,102.5
Alfred,M,14,69,112.5
Duke,M,14,63.5,102.5
Guido,M,15,67,133
James,M,12,57.3,83
Jeffrey,M,13,62.5,84
John,M,12,59,99.5
Philip,M,16,72,150
Robert,M,12,64.8,128
Thomas,M,11,57.5,85
William,M,15,66.5,112

用如下程序可以把上述文件读入为R数据框d.class,
并取出其中的name和age列到变量name和age中:

d.class <- read.csv("class.csv", header=TRUE, stringsAsFactors=FALSE)
name <- d.class[,"name"]
age <- d.class[,"age"]
  1. 求出age中第3, 5, 7号的值;
  2. 用变量age, 求出达到15岁及以上的那些值;
  3. 用变量name和age, 求出Mary与James的年龄。
  4. 求age中除Mary与James这两人之外的那些人的年龄值,保存到变量age1中。
  5. 假设向量x长度为n, 其元素是{1,2,…,n}的一个重排。
    可以把x看成一个i到x[i]的映射(i在{1,2,…,n}中取值)。
    求向量y, 保存了上述映射的逆映射,即:
    如果x[i]=j, 则y[j]=i。

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/77745.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2023年10月26日 00:37
下一篇 2023年10月27日 01:06

相关推荐

  • 女性如何应对生活方式的转变?让财务更稳健

    生活方式的转变及其对财务成功的影响: ‍ 生活方式蠕变,也称为生活方式通货膨胀,是指随着收入的增加,我们的支出逐渐增加。这是一种常见的现象,当我们赚得更多时,我们往往会花更多的钱,甚至常常没有意识到。我们开始将新的奢侈品和便利融入我们的生活,例如升级我们的住房、购买更高档的汽车或经常外出就餐。虽然这些变化乍一看似乎无害,但随着时间的推移,它们可能会对我们的财…

    2023年11月28日
    8200
  • 让您作为投资者脱颖而出的技能:创造力

    不久前,我写过一篇文章,将坚韧视为投资者的重要品质。这引发了与比金融分析师和基金经理处于职业早期阶段的年轻读者的一些电子邮件交流。 总的来说,讨论围绕着成功的分析师和投资者应具备的技能展开。虽然对市场的热情和毅力是关键特征,但我相信其他特征更为基本。 首先,有认知能力,即分析和逻辑思维的能力。投资是一场数字游戏,需要分析师理解各个层面的海量数据,无论是关于整…

    2023年8月14日
    11400
  • 北京大学R语言教程(李东风)第33章: R多元回归

    建模步骤: 33.1 模型 模型 y=β0+β1×1+⋯+βpxp+ε 其中 对n组观测数据, 有 yi=β0+β1xi1+⋯+βpxip+εi,i=1,2,…,n 对其中的随机误差项εi, i=1,2,…,n,假定: 总之,ε1,ε2,…,εn 相互独立,服从N(0,σ2)分布。 数据格式如: ⎛⎝⎜⎜⎜⎜⎜⎜⎜x1…

    2023年11月22日
    13400
  • 平安银行信用卡怎么办理分期还款,流程是什么?(平安银行信用卡我要账单分期怎么分??)

    二、申请单笔消费分期业务1、申请方式:拨打24小时客户服务热线95511-2申请;2、申请条件:申请人为主卡持卡人(附属卡不能申请);分期金额为0元≤单笔消费分期金额≤100000;只能对未出账单的单笔消费全额进行申请;3、手续费收取方式:每期收取;4、手续费计算方式:每期手乎大唤续费岁凯=总分期金额*每期手续费率。

    2018年6月3日
    14200
  • 冈拉克:赤字、衰退、失业和迫在眉睫的危机

    联邦赤字已经高达 GDP 的 6%。但如果经济衰退袭来——正如杰弗里·冈拉克担心明年会发生的那样——失业率将会上升,赤字和政府为此支付的利息将削弱经济。 冈拉克通过名为“规范”的网络广播向投资者发表讲话,重点是他的旗舰总回报基金 (DBLTX)。该网络广播中的幻灯片可在此处获取。冈拉克是洛杉矶双线资本的创始人兼董事长。 冈拉克曾经经常光顾圣莫尼卡一家名为 N…

    2023年12月18日
    10100

发表回复

登录后才能评论
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部