数据分析
-
家族办公室如何利用人工智能? 四大应用
人工智能 (AI) 在商业世界和流行文化中引起了巨大的轰动和恐惧。每个人都听说过 ChatGPT 和其他生成式人工智能平台,并且越来越多的人在个人和职业生活中使用它们。 投资世界也不例外,金融专业人士正在寻找既实施生成式人工智能又保护自己免受其影响的方法。虽然人工智能是一种有用的工具,可以创造强大而积极的成果,但它也涉及巨大的风险。这就是为什么家族办公室需要…
-
北京大学R语言教程(李东风)第25章: 函数式编程和数据框列表列
函数式编程介绍 R支持类(class)和方法(method),实际提供了适用于多种自变量的通用函数(generic function,或称泛型函数),不同自变量类型调用该类特有的方法, 但函数名可以保持不变。这可以支持一定的面向对象编程方式。 R也支持函数式编程,但不是专门的函数式编程语言。R语言的设计主要用函数求值来进行运算;R的用户主要使用函数调用来访问…
-
北京大学R语言教程(李东风)第24章:数据汇总
dplyr包的summarise()函数可以对数据框计算统计量。 以肺癌病人化疗数据cancer.csv为例,有34个肺癌病人的数据: d.cancer <- read_csv( “data/cancer.csv”, locale=locale(encoding=”GBK”)) ## Rows: 34 Columns: 6 ## ── Column s…
-
北京大学R语言教程(李东风)第23章: 数据整理
tidyverse系统 tidyverse是一系列用于数据输入输出、数据整理和数据汇总的R扩展包集合,使用这些包遵循相近的编程风格,比直接使用基本R编程要更直观、容易理解。其中readr包用于读入数据,tidyr包用于进行长、宽表转换,dplyr包用于数据整理与汇总,purr包进行map-reduce类操作,等等。 假设数据以tibble格式保存。数据集如果…
-
北京大学R语言教程(李东风)第22章: Quarto格式文件
22.1 介绍 Quarto是POSIT(原RStudio)团队开发的一个开源软件,可以将包含R、Python、Julia、Observable JS源程序的markdown文件产生运行结果后转换为各种输出格式,这些源文件可以是普通的包含程序代码的markdown文件(扩展名为.qmd),也可以是Jupyter笔记本文件(扩展名为.ipynb)。支持HTML…
-
北京大学R语言教程(李东风)第20章: 研究项目管理
执行一个数据分析研究项目,必须遵循一定的管理规则,才能事半功倍。 可重复式科学研究 现代科学研究之所以能被大众接受,成为主流世界观,很大程度上要归功于“可重复结果的试验”。现在生物、物理、化学等领域的科研越来越复杂,重复试验越来越难,但是不能重复的试验就备受争议。 数据分析项目也是这样,你的研究结果,一定要能够被第三方研究者所重复,要尽可能地提供详尽的代码和…
-
北京大学R语言教程(李东风)第19章:函数进阶
函数调用的各种形式 在R语言中,有两条简明的理解R程序的原则: 任何成分都是R的对象(变量、函数等等); 任何活动都是调用函数(求子集、四则运算、比较、函数调用等)。 函数调用有四种方式: 一、前缀形式。这也是一般的格式,如fsub(5, 2)。 二、中缀形式。二元运算符实际上都是函数,5 – 2的写法是中缀形式,等同于`-`(5, 2)。因为-不是合法的R…
-
北京大学R语言教程(李东风)第18章: R程序效率
R是解释型语言,在执行单个运算时,效率与编译代码相近;在执行迭代循环时, 效率较低,与编译代码的速度可能相差几十倍。在循环中对变量进行修改尤其低效,因为R在修改某些数据类型的子集时会复制整个数据对象。R以向量、矩阵为基础运算单元,在进行向量、矩阵运算时效率很高,应尽量采用向量化编程。 另外,R语言的设计为了方便进行数据分析和统计建模,有意地使语言特别灵活,比…
-
北京大学R语言教程(李东风)第17 章:函数
函数基础 介绍 在现代的编程语言中使用自定义函数,优点是代码复用、模块化设计。 如果一段程序需要在多处使用,就应该将其写成一个函数,然后在多处调用。需要修改程序执行功能时,仅需要修改函数而不需要修改各处调用。如果不使用函数而是将相同的代码在多处复制粘贴,修改时就需要修改多处,很容易漏掉一处。 在编程时,把编程任务分解成小的模块,每个模块用一个函数实现,便于理…
-
北京大学R语言教程(李东风)第16章: 程序控制结构
表达式 R是一个表达式语言,其任何一个语句都可以看成是一个表达式。表达式之间以分号分隔或用换行分隔。表达式可以续行,只要前一行不是完整表达式(比如末尾是加减乘除等运算符,或有未配对的括号)则下一行为上一行的继续。若干个表达式可以放在一起组成一个复合表达式,作为一个表达式使用,复合表达式的值为最后一个表达式的值,组合用大括号表示, 如: 分支结构 分支结构包括…
-
北京大学R语言教程(李东风)第15章: R输入输出
输入输出的简单方法 简单的输出 用print()函数显示某个变量或表达式的值,如 x <- 1.234 print(x) ## [1] 1.234 y <- c(1,3,5) print(y[2:3]) ## [1] 3 5 在命令行使用R时,直接以变量名或表达式作为命令可以起到用print()函数显示的相同效果。 用cat()函数把字符串、变量…
-
北京大学R语言教程(李东风)第14章: 工作空间和变量赋值
工作空间 R把在命令行定义的变量都保存到工作空间中,在退出R时可以选择是否保存工作空间。这也是R与其他如C、Java这样的语言的区别之一。 用ls()命令可以查看工作空间中的内容。 随着多次在命令行使用R,工作空间的变量越来越多,使得重名的可能性越来越大,而且工作空间中变量太多也让我们不容易查看其内容。在命令行定义的变量称为“全局变量”,在编程实践中,全局变…
-
北京大学R语言教程(李东风)第13章: 数据框
数据框 数据框定义 统计分析中最常见的原始数据形式是类似于数据库表或Excel数据表的形式。这样形式的数据在R中叫做数据框(data.frame)。数据框类似于一个矩阵,有n个横行、p个纵列,但各列允许有不同类型:数值型向量、因子、字符型向量、日期时间向量。同一列的数据类型相同。在R中数据框是一个特殊的列表,其每个列表元素都是一个长度相同的向量。事实上,数据…
-
北京大学R语言教程(李东风)第12章: R矩阵和数组
矩阵用matrix函数定义,实际存储成一个向量,根据保存的行数和列数对应到矩阵的元素,存储次序为按列存储。定义如 A <- matrix(11:16, nrow=3, ncol=2); print(A) ## [,1] [,2] ## [1,] 11 14 ## [2,] 12 15 ## [3,] 13 16 B <- matrix(c(1,-…
-
北京大学R语言教程(李东风)第11章:列表类型
R中列表(list)类型来保存不同类型的数据。一个主要目的是提供R分析结果输出包装:输出一个变量,这个变量包括回归系数、预测值、残差、检验结果等等一系列不能放到规则形状数据结构中的内容。实际上,数据框也是列表的一种,但是数据框要求各列等长,而列表不要求。 列表可以有多个元素,但是与向量不同的是,列表的不同元素的类型可以不同,比如,一个元素是数值型向量,一个元…
-
北京大学R语言教程(李东风)第10章: R因子类型
因子 R中用因子代表数据中分类变量, 如性别、省份、职业。有序因子代表有序量度,如打分结果,疾病严重程度等。 用factor()函数把字符型向量转换成因子,如 x <- c(“男”, “女”, “男”, “男”, “女”) sex <- factor(x) sex ## [1] 男 女 男 男 女 ## Levels: 男 女 attribute…
-
北京大学R语言教程(李东风)第9章: R日期时间
R日期和日期时间类型 R日期可以保存为Date类型,一般用整数保存,数值为从1970-1-1经过的天数。 R中用一种叫做POSIXct和POSIXlt的特殊数据类型保存日期和时间,可以仅包含日期部分,也可以同时有日期和时间。技术上,POSIXct把日期时间保存为从1970年1月1日零时到该日期时间的时间间隔秒数,所以数据框中需要保存日期时用POSIXct比较…
-
北京大学R语言教程(李东风)第1章: R语言介绍
R的历史和特点 R的历史 R语言来自S语言,是S语言的一个变种。S语言由Rick Becker, John Chambers, Alan Wilks等人在贝尔实验室开发,著名的C语言、Unix系统也是贝尔实验室开发的。 S语言第一个版本开发于1976-1980,基于Fortran;于1980年移植到Unix, 并对外发布源代码。1984年出版的“棕皮书” (…
-
北京大学Julia语言入门讲义第11章: 数据框
统计数据分析 Julia比较适合用作数值计算,编程既有Python、R、Matlab这样的语言的简洁,又有C++这样的编译语言的运行效率。统计数据分析、作图需要用到许多复杂的算法,有些算法耗时很多,比如MCMC等。大量数据的分析、计算、测试都需要易用的编程和高效的运行效率,Julia在这两点都很适合。 Julia用作统计数据分析,缺点是其问世时间还比较短,许…
-
北京大学Julia语言入门讲义第10章: 泛型编程和其它内容
方法 Julia的函数能够针对不同的自变量类型通过即时编译产生高效代码,不需要声明自变量类型。 函数可以声明自变量类型和返回值类型,这可以限定能使用的自变量类型,避免错误的输入,使得程序意图更明显;同一个函数可以有不同类型的自变量,这其实是多个函数共用同一个函数名,称这些函数为该函数名的“方法”(methods)。这种做法称为“多重派发”(multiple …
-
北京大学Julia语言入门讲义第8章: 作用域
变量的作用域是某个变量可见的范围。同名的变量使得问题变得复杂,变量作用域使得同名的不同变量能够区分开来。 变量作用域都是某些程序结构的范围内,比如一个函数定义范围,而不是任意的一段程序行的范围。 有两种主要的作用域: 全局作用域 局部作用域,可以嵌套,分为: 软局部作用域 硬局部作用域 全局作用域适用于模块(module)内,baremodule内,或者在命…
-
北京大学Julia语言入门讲义第7章: 模块
前面的例子都是相当于在命令行直接运行的。这样,变量和函数属于命令行对应的名字空间,称为Main模块。如果要写比较长的程序,所有变量和函数都在同一个名字空间中就很容易发生名字冲突。 Julia使用模块来区分名字空间,不同模块的同名变量、函数没有关系,不会发生冲突。 在一个模块内,可以有模块本身的全局变量,不同模块的全局变量即使同名也没有关系。 在模块内,可以控…
-
北京大学Julia语言入门讲义第2章: 复合数据结构
这一部分介绍Julia的向量、元组、集合、字典等复合数据结构,以及函数的进一步介绍。 一维数组 Julia支持一维和多维的数组,当一维数组的元素是数值时,也可以理解成数学中的向量。 在程序中直接定义一个向量,只要用方括号内写多个逗号分隔的数值,如 v1 = [2, 3, 5, 7, 11, 13, 17] 7-element Vector{Int64}: 2…
-
北京大学金融时间序列分析讲义第28章: 状态空间模型
上一章的局部水平模型是线性高斯状态空间模型的一个简单特例。本章给出状态空间模型,举例说明这种模型能够表示的其它模型,如ARIMA模型,结构时间序列模型,时变回归模型,有自相关误差的回归模型,随机波动率模型等,并给出滤波、平滑、预报公式和参数估计方法。 参考: (Durbin and Koopman 2012) (Tsay 2010) (Beijers 202…
-
北京大学金融时间序列分析讲义第27章: 局部水平模型
状态空间模型是时间序列分析领域中一类强大、灵活、多样的模型,配合卡尔曼滤波技术,可以涵盖ARIMA模型、许多非平稳的、带有外生变量的模型,比前面所述的线性时间序列模型更为灵活。R扩展包statespacer实现了许多基于线性高斯状态空间模型的模型,并且可以自定义模型。 参考: (Tsay 2010) (Durbin and Koopman 2012) (Be…
-
北京大学金融时间序列分析讲义第22章: 波动率模型的应用
下面研究GARCH模型导致的波动率期限结构,比如,日对数收益率的波动率与月对数收益率的波动率的关系。以时间t为基础,距离t时刻h期(比如h个交易日)的对数收益率为 rt,h=∑i=1hrt+i 于是 E(rt,h|Ft)=∑i=1hE(rt+i|Ft) h期的条件方差,即波动率平方为 Var(rt,h|Ft)=∑i=1hVar(rt+i|Ft)+∑1≤i&l…
-
北京大学金融时间序列分析讲义第21章: 其它的波动率计算方法
本章内容来自自(Tsay 2013)§4.15和§4.16内容。 (French, Schwert, and Stambaugh 1987)用高频数据计算低频收益率的波动率,又可参见(Andersen et al. 2001)和(Andersen et al. 2001)。 假设我们对某资产的月波动率感兴趣,有该资产的日收益率数据,设rmt是该资产第t个月的…
-
北京大学金融时间序列分析讲义第17章: ARCH模型
这是原书(Tsay 2013)§4.5内容。 ARCH模型公式 (R. F. Engle 1982) 提出了ARCH模型(自回归条件异方差模型),这是对将波动率定义为条件标准差,第一次提出的波动率的理论模型。基本思想是: 资产收益率的扰动序列at=rt−E(rt|Ft−1)是前后不相关的, 但是前后不独立。 at的不独立性, 描述为Var(rt|Ft−1)=…
-
北京大学金融时间序列分析讲义第14章: 线性时间序列案例学习「全球温度异常值」
用时间序列方法对全球温度异常建模,目的不是证明全球变暖,而是: 演示线性时间序列模型的建模和预测方法; 比较不同的模型; 了解时间序列模型长期预测的局限性; 理解仅根据数据区分非随机趋势与单位根非平稳的困难。 全球温度异常值的数据来源有: GISS, Goddard Institute for Space Studies 隶属于 NASA(National …
-
北京大学金融时间序列分析讲义第12章: 模型比较和平均
在实际金融事件序列数据的建模中,注意不存在所谓“正确的模型”,只能是从多个比较适合的模型中选择最合适的一个,或者将比较适合的多个模型的预测结果进行平均。 为了比较模型,有样本内比较和样本外比较两种方法。 样本内比较 如果建模目的是获得描述数据内在运动规律的参数模型,可以用样本内比较,利用全部数据建模,并比较不同模型的某个优良性指标,如AIC、BIC、新息方差…