R语言对应分析

2024-05-06 06:04

1. R语言对应分析

 @[toc]
   Q型分析:样本之间的关系(聚类算法等)   R型分析:变量之间的关系(主成分分析、因子分析等)。   有时候我们不仅要弄清样本之间和变量之间的关系,还要弄清 样本与变量之间的关系 ,而对应分析就是这样一种分析方法。(变量就是指特征)
   对应分析为我们可以提供三个方面的信息
   上述三方面信息都可以通过二维图呈现出来
   当对两个分类变量进行的对应分析称为 简单对应分析 ;   对两个以上的分类变量进行的对应分析称为 多重对应分析 。
   对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的类别点较集中,联系疏远的类别点较分散;通过观察对应分布图就能直观地把握变量类别之间的联系。
    对于该方法,在减少维度方面与因子分析相似,在作分布图方面与多维尺度方法相似。 
   在对数据作对应分析之前,需要先了解因素间是否独立。如果因素之间相互独立,则没有必要进行对应分析,当因素间在统计学上具有显著的关联性时,在此基础上使用对应分析方法,其分析结果才具有意义。
   p-value < 0.001,两组变量显著不独立,说明具有相关性。

R语言对应分析

2. R语言数据集

 
   
                                            1. 向量 Vector        向量是用于储存数值型、字符型或逻辑型数据的一维数组。执行组合功能能的函数  可用来创建向量。
     单个向量中的数据必须拥有相同的类型或模式(即数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。
    2. 矩阵 Matrix        矩阵是一个二维数组,知识每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数  创建矩阵。
    3. 数组 Array        数组与矩阵类似,但是维度可以大于2。数组可通过  函数创建。       数组是矩阵的一个自然推广。它们在编写新的统计方法时很有用。像矩阵一样,数组中的数据也只能拥有一种模式。从数组中选取元素的方法与矩阵相同。
    4. 数据框 Data Frame        这是R语言最常用的数据类型。不同的列可以包含不同模式的数据。每一列数据的模式必须相同,且必须等长。数据框可通过函数  创建。
    5. 列表 List        列表是一些对象(或成分)的有序集合。列表允许你整合若干(可能无关的)对象到单个对象名下。例如,某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。可以使用函数  创建列表。       许多R的运行结果都是以列表的形式返回的。需要取出其中哪些成分由分析人员决定。

3. 做数据分析必须学R语言的4个理由

做数据分析必须学R语言的4个理由

R 是一种灵活的编程语言,专为促进探索性数据分析、经典统计学测试和高级图形学而设计。R 拥有丰富的、仍在不断扩大的数据包库,处于统计学、数据分析和数据挖掘发展的前沿。R 已证明自己是不断成长的大数据领域的一个有用工具,并且已集成到多个商用包中,比如 IBM SPSS? 和 InfoSphere?,以及 Mathematica。
本文提供了一位统计学家Catherine Dalzell对 R 的价值的看法。
为什么选择 R?
R可以执行统计。您可以将它视为 SAS Analytics 等分析系统的竞争对手,更不用提 StatSoft STATISTICA 或 Minitab 等更简单的包。政府、企业和制药行业中许多专业统计学家和方法学家都将其全部职业生涯都投入到了 IBM SPSS 或 SAS 中,但却没有编写过一行 R 代码。所以从某种程度上讲,学习和使用 R 的决定事关企业文化和您希望如何工作。我在统计咨询实践中使用了多种工具,但我的大部分工作都是在 R 中完成的。以下这些示例给出了我使用 R 的原因:
R 是一种强大的脚本语言。我最近被要求分析一个范围研究的结果。研究人员检查了 1,600 篇研究论文,并依据多个条件对它们的内容进行编码,事实上,这些条件是大量具有多个选项和分叉的条件。它们的数据(曾经扁平化到一个 Microsoft? Excel? 电子表格上)包含 8,000 多列,其中大部分都是空的。研究人员希望统计不同类别和标题下的总数。R 是一种强大的脚本语言,能够访问类似 Perl 的正则表达式来处理文本。凌乱的数据需要一种编程语言资源,而且尽管 SAS 和 SPSS 提供了脚本语言来执行下拉菜单意外的任务,但 R 是作为一种编程语言编写的,所以是一种更适合该用途的工具。
R 走在时代的前沿。统计学中的许多新发展最初都是以 R 包的形式出现的,然后才被引入到商业平台中。我最近获得了一项对患者回忆的医疗研究的数据。对于每位患者,我们拥有医生建议的治疗项目数量,以及患者实际记住的项目数量。自然模型是贝塔—二项分布。这从上世纪 50 年代就已知道,但将该模型与感兴趣的变量相关联的估算过程是最近才出现的。像这样的数据通常由广义估计方程式 (general estimating equations, GEE) 处理,但 GEE 方法是渐进的,而且假设抽样范围很广。我想要一种具有贝塔—二项 R 的广义线性模型。一个最新的 R 包估算了这一模型:Ben Bolker 编写的 betabinom。而 SPSS 没有。
集成文档发布。 R 完美地集成了 LaTeX 文档发布系统,这意味着来自 R 的统计输出和图形可嵌入到可供发布的文档中。这不是所有人都用得上,但如果您希望便携异步关于数据分析的书籍,或者只是不希望将结果复制到文字处理文档,最短且最优雅的路径就是通过 R 和 LaTeX。
没有成本。作为一个小型企业的所有者,我很喜欢 R 的免费特定。即使对于更大的企业,知道您能够临时调入某个人并立即让他们坐在工作站旁使用一流的分析软件,也很不错。无需担忧预算。
R 是什么,它有何用途?
作为一种编程语言,R 与许多其他语言都很类似。任何编写过代码的人都会在 R 中找到很多熟悉的东西。R 的特殊性在于它支持的统计哲学。
一种统计学革命:S 和探索性数据分析
140 字符的解释:R 是 S 的一种开源实现,是一种用于数据分析和图形的编程环境。
计算机总是擅长计算 — 在您编写并调试了一个程序来执行您想要的算法后。但在上世纪 60 和 70 年代,计算机并不擅长信息的显示,尤其是图形。这些技术限制在结合统计理论中的趋势,意味着统计实践和统计学家的培训专注于模型构建和假设测试。一个人假定这样一个世界,研究人员在其中设定假设(常常是农业方面的),构建精心设计的实验(在一个农业站),填入模型,然后运行测试。一个基于电子表格、菜单驱动的程序(比如 SPSS 反映了这一方法)。事实上,SPSS 和 SAS Analytics 的第一个版本包含一些子例程,这些子例程可从一个(Fortran 或其他)程序调用来填入和测试一个模型工具箱中的一个模型。
在这个规范化和渗透理论的框架中,John Tukey 放入了探索性数据分析 (EDA) 的概念,这就像一个鹅卵石击中了玻璃屋顶。如今,很难想像没有使用箱线图(box plot) 来检查偏度和异常值就开始分析一个数据集的情形,或者没有针对一个分位点图检查某个线性模型残差的常态的情形。这些想法由 Tukey 提出,现在任何介绍性的统计课程都会介绍它们。但并不总是如此。
与其说 EDA 是一种理论,不如说它是一种方法。该方法离不开以下经验规则:
只要有可能,就应使用图形来识别感兴趣的功能。
分析是递增的。尝试以下这种模型;根据结果来填充另一个模型。
使用图形检查模型假设。标记存在异常值。
使用健全的方法来防止违背分布假设。
Tukey 的方法引发了一个新的图形方法和稳健估计的发展浪潮。它还启发了一个更适合探索性方法的新软件框架的开发。
S 语言是在贝尔实验室由 John Chambers 和同事开发的,被用作一个统计分析平台,尤其是 Tukey 排序。第一个版本(供贝尔实验室内部使用)于 1976 年开发,但直到 1988 年,它才形成了类似其当前形式的版本。在这时,该语言也可供贝尔实验室外部的用户使用。该语言的每个方面都符合数据分析的 “新模型”:
S 是一种在编程环境操作的解释语言。S 语法与 C 的语法很相似,但省去了困难的部分。S 负责执行内存管理和变量声明,举例而言,这样用户就无需编写或调试这些方面了。更低的编程开销使得用户可以在同一个数据集上快速执行大量分析。
从一开始,S 就考虑到了高级图形的创建,您可向任何打开的图形窗口添加功能。您可很容易地突出兴趣点,查询它们的值,使散点图变得更平滑,等等。
面向对象性是 1992 年添加到 S 中的。在一个编程语言中,对象构造数据和函数来满足用户的直觉。人类的思维始终是面向对象的,统计推理尤其如此。统计学家处理频率表、时间序列、矩阵、具有各种数据类型的电子表格、模型,等等。在每种情况下,原始数据都拥有属性和期望值:举例而言,一个时间序列包含观察值和时间点。而且对于每种数据类型,都应得到标准统计数据和平面图。对于时间序列,我可能绘制一个时间序列平面图和一个相关图;对于拟合模型,我可能绘制拟合值和残差。S 支持为所有这些概念创建对象,您可以根据需要创建更多的对象类。对象使得从问题的概念化到其代码的实现变得非常简单。
一种具有态度的语言:S、S-Plus 和假设测试
最初的 S 语言非常重视 Tukey 的 EDA,已达到只能 在 S 中执行 EDA 而不能执行其他任何操作的程度。这是一种具有态度的语言。举例而言,尽管 S 带来了一些有用的内部功能,但它缺乏您希望统计软件拥有的一些最明显的功能。没有函数来执行双抽样测试或任何类型的真实假设测试。但 Tukey 认为,假设测试有时正合适。
1988 年,位于西雅图的 Statistical Science 获得 S 的授权,并将该语言的一个增强版本(称为 S-Plus)移植到 DOS 以及以后的 Windows? 中。实际认识到客户想要什么后,Statistical Science 向 S-Plus 添加了经典统计学功能。添加执行方差分析 (ANOVA)、测试和其他模型的功能。对 S 的面向对象性而言,任何这类拟合模型的结果本身都是一个 S 对象。合适的函数调用都会提供假设测试的拟合值、残差和 p-值。模型对象甚至可以包含分析的中间计算步骤,比如一个设计矩阵的 QR 分解(其中 Q 是对角线,R 是右上角)。
有一个 R 包来完成该任务!还有一个开源社区
大约在与发布 S-Plus 相同的时间,新西兰奥克兰大学的 Ross Ihaka 和 Robert Gentleman 决定尝试编写一个解释器。他们选择了 S 语言作为其模型。该项目逐渐成形并获得了支持。它们将其命名为 R。
R 是 S 的一种实现,包含 S-Plus 开发的更多模型。有时候,发挥作用的是同一些人。R 是 GNU 许可下的一个开源项目。在此基础上,R 不断发展,主要通过添加包。R 包 是一个包含数据集、R 函数、文档和 C 或 Fortran 动态加载项的集合,可以一起安装并从 R 会话访问。R 包向 R 添加新功能,通过这些包,研究人员可在同行之间轻松地共享计算方法。一些包的范围有限,另一些包代表着整个统计学领域,还有一些包含最新的技术发展。事实上,统计学中的许多发展最初都是以 R 包形式出现的,然后才应用到商用软件中。
在撰写本文时,R 下载站点 CRAN 上已有 4,701 个 R 包。其中,单单那一天就添加了 6 个 R 。万事万物都有一个对应的 R 包,至少看起来是这样。
我在使用 R 时会发生什么?
备注:本文不是一部 R 教程。下面的示例仅试图让您了解 R 会话看起来是什么样的。
R 二进制文件可用于 Windows、Mac OS X 和多个 Linux? 发行版。源代码也可供人们自行编译。
在 Windows? 中,安装程序将 R 添加到开始菜单中。要在 Linux 中启动 R,可打开一个终端窗口并在提示符下键入 R。您应看到类似图 1 的画面。
 
图 1. R 工作区
在提示符下键入一个命令,R 就会响应。
此时,在真实的环境中,您可能会从一个外部数据文件将数据读入 R 对象中。R 可从各种不同格式的文件读取数据,但对于本示例,我使用的是来自 MASS 包的 michelson 数据。这个包附带了 Venables and Ripley 的标志性文本 Modern Applied Statistics with S-Plus(参见 参考资料)。michelson 包含来自测量光速的流行的 Michelson and Morley 实验的结果。
清单 1 中提供的命令可以加载 MASS 包,获取并查看 michelson 数据。图 2 显示了这些命令和来自 R 的响应。每一行包含一个 R 函数,它的参数放在方括号 ([]) 内。
清单 1. 启动一个 R 会话
2+2 # R can be a calculator. R responds, correctly, with 4.
library(“MASS”) # Loads into memory the functions and data sets from
# package MASS, that accompanies Modern Applied Statistics in S
data(michelson) # Copies the michelson data set into the workspace.
ls() # Lists the contents of the workspace. The michelson data is there.
head(michelson) # Displays the first few lines of this data set.
# Column Speed contains Michelson and Morleys estimates of the
# speed of light, less 299,000, in km/s.
# Michelson and Morley ran five experiments with 20 runs each.
# The data set contains indicator variables for experiment and run.
help(michelson) # Calls a help screen, which describes the data set.
图 2. 会话启动和 R 的响应
 
现在让我们看看该数据(参见 清单 2)。输出如 图 3 中所示。
清单 2. R 中的一个箱线图
# Basic boxplot
with(michelson, boxplot(Speed ~ Expt))
# I can add colour and labels. I can also save the results to an object.
michelson.bp = with(michelson, boxplot(Speed ~ Expt, xlab=”Experiment”, las=1,
ylab=”Speed of Light – 299,000 m/s”,
main=”Michelson-Morley Experiments”,
col=”slateblue1″))
# The current estimate of the speed of light, on this scale, is 734.5
# Add a horizontal line to highlight this value.
abline(h=734.5, lwd=2,col=”purple”) #Add modern speed of light
Michelson and Morley 似乎有计划地高估了光速。各个实验之间似乎也存在一定的不均匀性。
图 3. 绘制一个箱线图
 
在对分析感到满意后,我可以将所有命令保存到一个 R 函数中。参见清单 3。
清单 3. R 中的一个简单函数
MyExample = function(){
library(MASS)
data(michelson)
michelson.bw = with(michelson, boxplot(Speed ~ Expt, xlab=”Experiment”, las=1,
ylab=”Speed of Light – 299,000 m/s”, main=”Michelsen-Morley Experiments”,
col=”slateblue1″))
abline(h=734.5, lwd=2,col=”purple”)
}
这个简单示例演示了 R 的多个重要功能:
保存结果—boxplot() 函数返回一些有用的统计数据和一个图表,您可以通过类似 michelson.bp = … 的负值语句将这些结果保存到一个 R 对象中,并在需要时提取它们。任何赋值语句的结果都可在 R 会话的整个过程中获得,并且可以作为进一步分析的主题。boxplot 函数返回一个用于绘制箱线图的统计数据(中位数、四分位等)矩阵、每个箱线图中的项数,以及异常值(在 图 3 中的图表上显示为开口圆)。请参见图 4。
图 4. 来自 boxplot 函数的统计数据
 
公式语言— R(和 S)有一种紧凑的语言来表达统计模型。参数中的代码 Speed ~ Expt 告诉函数在每个 Expt (实验数字)级别上绘制 Speed 的箱线图。如果希望执行方差分析来测试各次实验中的速度是否存在显著差异,那么可以使用相同的公式:lm(Speed ~ Expt)。公式语言可表达丰富多样的统计模型,包括交叉和嵌套效应,以及固定和随机因素。
用户定义的 R 函数— 这是一种编程语言。
R 已进入 21 世纪
Tukey 的探索性数据分析方法已成为常规课程。我们在教授这种方法,而统计学家也在使用该方法。R 支持这种方法,这解释了它为什么仍然如此流行的原因。面向对象性还帮助 R 保持最新,因为新的数据来源需要新的数据结构来执行分析。InfoSphere? Streams 现在支持对与 John Chambers 所设想的不同的数据执行 R 分析。
R 与 InfoSphere Streams
InfoSphere Streams 是一个计算平台和集成开发环境,用于分析从数千个来源获得的高速数据。这些数据流的内容通常是非结构化或半结构化的。分析的目的是检测数据中不断变化的模式,基于快速变化的事件来指导决策。SPL(用于 InfoSphere Streams 的编程语言)通过一种范例来组织数据,反映了数据的动态性以及对快速分析和响应的需求。
我们已经距离用于经典统计分析的电子表格和常规平面文件很远,但 R 能够应付自如。从 3.1 版开始,SPL 应用程序可将数据传递给 R,从而利用 R 庞大的包库。InfoSphere Streams 对 R 的支持方式是,创建合适的 R 对象来接收 SPL 元组(SPL 中的基本数据结构)中包含的信息。InfoSphere Streams 数据因此可传递给 R 供进一步分析,并将结果传回到 SPL。
R 需要主流硬件吗?
我在一台运行 Crunchbang Linux 的宏碁上网本上运行了这个示例。R 不需要笨重的机器来执行中小规模的分析。20 年来,人们一直认为 R 之所以缓慢是因为它是一种解释性语言,而且它可以分析的数据大小受计算机内存的限制。这是真的,但这通常与现代机器毫无干系,除非应用程序非常大(大数据)。
R 的不足之处
公平地讲,R 也有一些事做不好或完全不会做。不是每个用户都适合使用 R:
R 不是一个数据仓库。在 R 中输入数据的最简单方式是,将数据输入到其他地方,然后将它导入到 R 中。人们已经努力地为 R 添加了一个电子表格前端,但它们还没流行起来。电子表格功能的缺乏不仅会影响数据输入,还会让以直观的方式检查 R 中的数据变得很困难,就像在 SPSS 或 Excel 中一样。
R 使普通的任务变得很困难。举例而言,在医疗研究中,您对数据做的第一件事就是计算所有变量的概括统计量,列出无响应的地方和缺少的数据。这在 SPSS 中只需 3 次单击即可完成,但 R 没有内置的函数来计算这些非常明显的信息,并以表格形式显示它。您可以非常轻松地编写一些代码,但有时您只是想指向要计算的信息并单击鼠标。
R 的学习曲线是非平凡的。初学者可打开一个菜单驱动的统计平台并在几分钟内获取结果。不是每个人都希望成为程序员,然后再成为一名分析家,而且或许不是每个人都需要这么做。
R 是开源的。R 社区很大、非常成熟并且很活跃,R 无疑属于比较成功的开源项目。前面已经提到过,R 的实现已有超过 20 年历史,S 语言的存在时间更长。这是一个久经考验的概念和久经考验的产品。但对于任何开源产品,可靠性都离不开透明性。我们信任它的代码,因为我们可自行检查它,而且其他人可以检查它并报告错误。这与自行执行基准测试并验证其软件的企业项目不同。而且对于更少使用的 R 包,您没有理由假设它们会实际生成正确的结果。
结束语
我是否需要学习 R?或许不需要;需要 是一个感情很强烈的词。但 R 是否是一个有价值的数据分析工具呢?当然是的。该语言专为反映统计学家的思考和工作方式而设计。R 巩固了良好的习惯和合理的分析。对我而言,它是适合我的工作的工具。

做数据分析必须学R语言的4个理由

4. 网络数据的统计分析-R语言实战

 资料:《Statistical Analysis of Network Data with R》
   语言R常见的网络分析包:
   网络分析研究大部分是描述性的工作。   网络的可视化 即是一门艺术,也是一门科学。
   三元闭包体现了社会网络的“传递性”(transitivity),枚举所有节点三元组中构成三角形的比值来表征。
   网络的可视化和数值特征化是网络分析的首要步骤之一。   网络可视化视图将数据的多个重要反面整合在一个图表中。
                                           该节点在多大程度上会与同类型或者不同类型的其他节点进行匹配,可以通过一种相关性统计量(所谓的同配系数)进行量化。
   将复杂系统中感兴趣的问题与合适的网络概括性度量匹配起来,是网络特征化方法起作用的关键所在。
   网络中的频繁子图模式
    网络聚类系数的分布,用来检验社会网路的聚集性上 
   sand安装包   网络数据统计分析 statistical analysis of network data   在CRAN上
   G=(V,E)   节点 :vertices 或者 nodes   边:edges 或者 links   节点数量:图的阶数 order   边的数量:图的规模 size
   同构图 isomorphic
   无向 undirected   有向 directed graph 或者 digraph   边:有向边 directed edges 或 弧 arcs   双向 mutual
   小的图形用 formulate来创建
                                                                                                                                                                                                                                                                                                                                                                           把mg转化为wg2
                                                                                                                                                                                                                                                                                                                                   Zachary 空手道俱乐部网络 (karate club network)   数据集合实际上只存在两个社团,分别以教练为中心和以主管为中心。
                                                                                   Lazega律师网络可视化
                                           srt() 不能用使用 upgrade_graph()d代替
                                           DrL算法,针对大型网络可视化设计的布局算法。
                                           节点的节点,即社区节点(主题节点)
                                           即一个中心节点,一其直接相连的邻居,以及这些节点至今的边。
                                                                                                                                                                   度值不同的节点以何种方式彼此连接
                                                                                                                                                                   图的密度
   全局聚类系数
   局部聚类系数
   互惠性 reciprocity   二元组普查

5. R语言之实战分析

 采编自 DataMiningWithR 
   
                                                                                   
    2.1 观察各个变量数据的规范性    几乎每个变量都有异常值存在,多是异常大值
                                            2.2 观察变量间的相关性 
                                                                                    2.3 双变量间的相关性    由上可知,"oPO4"和"PO4"高度相关,达到0.91
                                            2.4 观察单个变量的数据分布情况 
                                                                                                                           左图可明显判断异常值的存在,右图可展现数据在不同范围内的分布集中度
                                                                                    3.1 了解缺失值的基本分布情况 
                                            3.2 直接删除缺失值,在缺失值占比很少的情况采用 
    3.3 基于一定的规则填充缺失值 
    4.1 数据准备和聚类预览 
   初步判断,可分为4组
                                            4.2 层次聚类 
                                            4.3 kmeans均值聚类 (1) 
                                            4.3 kmeans均值聚类 (2) 
                                            4.1 盖帽法处理异常值    即分别设定数据的上下限,高于上限的用上限替换,低于下限的用下限替换
    4.2 盖帽法处理异常值后重现考察数据的分布情况 

R语言之实战分析

6. R是基于什么语言有哪些基本数据类型

数据类型就是对内存位置的抽象表达,数据类型指明了变量或表达式的状态和行为。Java语言中数据类型分为简单数据类型和复合数据类型,如下表所示。

    * 简单数据类型:简单数据类型是不能再简化的、内置的数据类型,由编程语言定义,表示真实的数字、字符和整数。例如实数、整数、字符和布尔值。
    * 复合数据类型:由简单数据类型的组合形成的更大、更复杂的数据类型。例如类、接口和数字。


    注意:

    (1)在Java语言中,字符串没有被当做数组,而是被当做对象来处理的,类String和StringBuffer都可以被用来表示一个字符串。

    (2)Java语言不支持C、C++中的指针类型、结构类型、枚举类型和联合类型。

    (3)Java语言中所有简单数据类型的所在内存位数都是固定的。

    (4)Java语言没有提供无符号整数类型。

    (5)Java语言的short数据类型很少使用,因为它限制数据有存储为先高字节,后低字节,这样在某些机器中会出错。

Java 语言的数据类型

简单数据类型     布尔数据类型 (boolean)     1 位
   字符类型 (char)     2 字节
   整数类型 (integer)    byte    1 字节
    short    2 字节
    int    4 字节
   long    8 字节
   浮点数类型 (float)    float    4 字节
              double    8 字节
复合数据类型     类 (class)
   接口 (interface)
   数组

7. R语言数据对象与运算

R语言数据对象与运算
R语言数据对象与运算 笔记整理
2.1 数据对象及类型
R语言创建和控制的实体被称为对象(object)
ls()命令来查看当前系统里的数据对象
R对象的名称必须以一个英文字母打头,并由一串大小写字母、数字或钟点组成
注意:R区分大小写
不要用R的内置函数名称作为数据对象的名称,如c、length等
2.2 数据对象类型
R语言的对象包括
数值型(numeric):实数, 可写成整数(integers)、小数(decimal fractions)、科学记数(scientific notation)
逻辑型(logical):T(true)或F(FALSE)
字符型(character):夹在" "或之间
复数型(complex):形如a+bi
原味型(raw):以二进制形式保存数据
缺省型(missing value):有些统计资料是不完整的,当一个元素或值在统计的时候是“不可得到(not available)”或“缺失值(missing value)”的时候,相关位置可能会被保留并赋予一个特定的NA(not available)值,任何NA的运算结果都是NA。
辨别和转换数据对象类型的函数:
辨别                          转换
character   is.character()           as,character()
complex
double
integer
logical
NA
numeric
2.3 数据对象构造
R语言里的数据对象主要有六种构造:向量(vector)、矩阵(matrix)、数组(array)、列表(list)、数据框(data frames)、因子(factor)
2.3.1 向量(vector)是由有相同基本类型元素组成的序列,相当于一维数组
 
5个数值组成的向量x,这是一个用函数c()完成的赋值语句,这里c()可以有任意多个参数,而它输出的值则是一个把这些参数首尾相连形成的一个向量
R的赋值符号除了“""="
例如:
> c(1,3,5,7,9) -> y 
> y  
[1] 2 5 8 3 
> z = c(1,3,5,7,9) 
> z 
[1] 1 3 5 7 9 
 
assign()函数对向量进行赋值
 
length():可返回向量的长度 
mode()可返回向量的数据类型
 
正则序列  用 “:”符号,可产生有规律的正则序列(: 的运算级别最高)
 
函数seq()产生有规律的各种序列
seq(from,to ,by) from 给序列的起始值,to表示序列的终止值,by表示步长(by 省略时,表示步长值为1)
> seq(1,10,2) 
[1] 1 3 5 7 9 
> seq(1,10) 
[1]   1   2   3   4   5   6   7   8   9   10 
有时关注的是数列的长度,利用句法:seq(下界,by=,length=)
> seq(1,by=2,length=10) 
[1]   1   3   5   7   9 11 13 15 17 19 
 
rep(x,times,……)x表示要重复的对象,times表示重复的次数
> rep(c(1,3),4)      
[1] 1 3 1 3 1 3 1 3 
> rep(c(1,3),each=4) 
[1] 1 1 1 1 3 3 3 3
 
对每个元素进行重复;
R中的内置函数:
mean()来示向量的均值
median()求是位数
var()求方差
sd()求标准差
sort()对向量排序
rev()将向量按原方向的反方向排列
rank()给求出向量的秩
prod()求向量连乘积
append()为向量添加元素
对向量运算常见函数表 
函数  用途
sum()  求和
max()  求最大值
min()  求最小值
range()  求极差(全矩)
mean()  求均值
median  求中位数
var()  求方差
sd()  求标准差
sort()  排序
rev()  反排序
rank()  求秩
append()  添加
replace()  替换
match()  匹配
pmatch()  部分匹配
all()  判断所有
any()  判断部分
prod()  积 
2.3.2 矩阵
矩阵(matrix)是将数据用行和列排列的长方形表格,它是二维的数组,其单元必须是相同的数据类型,通常用列来表示不同的变量,用行表示各个对象。
其句法是:
matrix(data=NA,ncol=1,byrow-=FALSE,dimnames=NULL)
data是必须的,其它几个选择参数。
nrow表示矩阵的行数
ncol表示矩阵的列数
byrow默认为FALSE,表示矩阵按列排列,如设置为T,表示按行排列;
dimnames可更改矩阵行列名字
 
 
diag()函数生成对角矩阵
diag()这个函数比较特别,当数据是向量时则生成对角矩阵,但当数据是矩阵时,则返回对角元素
也可用函数diag()生成单位矩阵
 
当我们生成了某个矩阵后,若要访问矩阵的某个元素或某行(列),可以利用形如A[i,j]的形式得到相应的索引矩阵
 
 
矩阵可进行相应的加减乘除运算,但运算过程中要注意行数和列数的限制条件
R里A*B并不是表示矩阵相乘,只表示矩阵对应的元素相乘
矩阵相乘应用A%*%B
dim()返回矩阵的行数和列数
nrow()返回矩阵的行数
ncol()返回矩阵的列数
solve()返回矩阵的逆矩阵
对矩阵运算的常见函数 
函数  用途
as.matrix()  把非矩阵的转换成矩阵
is.matrix()  辨别是否矩阵
diag()  返回对角元素或生成对角矩阵
eigen()  求特征值和特征向量
solve()  求逆矩阵
chol()  Choleski分解
svd()  奇异值分解
qr()  QR分解
det()  求行列式
dim()  返回行列数
t()  矩阵转置
apply()  对矩阵应用函数
R语言还提供了专门针对矩阵的行或列计算的函数
如          colSUms()对矩阵各列求和    colMeans()求矩阵各列的均值
类似的有 rowSums()rowMeans()
更一般的方法:
apply()函数来对各行各列进行运算
句法是:apply(X,MARGIN,FUN,……)
X表示要处理的数据
MARGIN表示函数作用的范围
取1表示对行运用函数
取2表示对列运用函数
FUN表示要运用的函数
rbind()、cbind()将两个或两个以上的矩阵合并起来
rbind()表示按行合并,cbind()则表示按列合并
2.3.3 数组
数组(array)可以看作是带有多个下标的类型相同的元素的集合。
数组的生成函数是array(),其句法是
array(data=NA,dim=length(data),dimnames-NULL)
data表示数据,可以为空
dim 表示维数
dimnames可以更改数组难度的名称
2.3.4 列表
向量、矩阵和的单元必须是同一类型的数据,若一个数据对象需要含有不同的数据类型,可采用列表(list)这种数据对象的形式。
列表是一个对象的有序集合构成的对象,列表中包含的对象又称为它的分量(components),分量可以是不同的模式或(和)类型
语法式为:list (变量1=分量1,变量2=分量2,……)
若要访问列表的某一成分,可以用LST[[1]],LST[[2]]的形式访问
因分量可以被命名,故可以在列表名称后加$符号,再写上成分名称来访问列表分量
函数length()、mode()、names()可以分别返回列表的长度(分量的数目)、数据类型、列表里成分的名字
2.3.5 数据框
数据框(data frame)是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据。数据框每列是一个变量,每行是一个观测 。
对可能列入数据框中的列表有如下的一些限制:
1.分量必须是向量(数值,字符,逻辑),因子,数值矩阵,列表或者其他数据框。
2.矩阵,列表和数据框为新的数据框提供了尽可能多的变量,因为它们各自拥有列、元素或者变量。
3.数值向量、逻辑值、因子保持原有格式,而字符向量会被强制转换成因子并且它的水平就是向量中出现的独立值。
4.在数据框中以变量形式出现的向量结构必须长度一致,矩阵结构必须有一样的行数。
R中用函数data.frame()生成数据框,其句法是:data.frame(data1,data2,……)
数据框的列名默认为变量名,也可对列名进行重新命名
也可以对数据框的行名进行修改
2.3.6 因子和有序因子
分类型数据经常要把数据分成不同的水平或因子(factor)
生成因子的命令是factor(),其句法是:factor(data,levels,labels,……)
其中data表示数据
levels是因子水平向量
labels是因子的标签向量
levels,labels是备选项,可以不选
若上面的每个因子并不表示因子的大小,要表达因子之间有大小顺序(考虑因子之间的顺序),则可以用 ordered()函数产生
2.4 数据的录入及编辑
c函数:c函数是把各个值联成一个向量或列表,可以形成数值型向量、字符型向量或其它类型向量
 
scan函数:功能类似于c函数,实际上是一种键盘输入数据函数。当输入scan(),然后按回车键,这时将等待输入数据,数据之间只要空格分开即可(c函数要用逗号分开)。输入完数据,再按回车键,这时数据录入完毕。
scan函数还可以读入外部文本文件,若现有一个文本文件,data.txt,读入这个文件的命令是:> x=scan(file="dat.txt")
若原文件的数据之间有逗号等分隔符,用scan读入应该去掉这些分隔符,其命令是:> x=scan(file="dat.txt",sep=",") 
编辑数据
data.entry命令
xx原先未被定义,现在赋予其一个空值,这时会出现一个电子表格界面,等待输入数据:> data.entry(xx=c(NA))  
当电子表格关闭后,数据会自动保存
edit命令用来编辑函数,也可用来编辑数据,但不会自动保存
fix函数与edit类似,但它可以自动保存
从外部文件读入数据
从文本文件读取:
> s1=read.table("student.txt") 
> s1 
     V1    V2    V3 
1    class   sex    score 
2      1   女    80 
3      1   男    85 
4      2   男    92 
5      2   女    76 
6      3   女    61 
7      3   女    95 
8      3   男    83 
读入表格数据的命令是:read.table
 
忽略掉标签而直接使用默认的行标签
> s2=read.table("student.txt",header=T)
> s2 
class   sex    score 
1      1   女    80 
2      1   男    85 
3      2   男    92 
4      2   女    76 
5      3   女    61 
6      3   女    95 
7      3   男    83 
从网络读入数据
url可以从网页上读入正确格式的数据,要借助read.table函数
>  address=http://www.the-data-mine.com/bin/view/Misc/WebHome
/sample.txt
> read.table(file=url(address)) 
读入其他格式的数据库
要读入其他格式的数据库,必须先安装"foreign"模块,它不属于R的8个内置模块,需在使用前安装。  library(foreign) 
SAS:R只能诗篇SAS Transport format(XPORT)文件,需要把普通的SAS数据文件(.ssd和.sas7bdat)转换成Transport format(XPORT)文件,再用命令:read.xport()
SPSS数据库:read.spss()可读入SPSS数据文件
Epi info数据库:
要给数据集一个名字,则是;read.epiinfo("文件名.rec")->名称
Stata数据库:
R可读入Stata5,6,7的数据库
读入数据文件后,使用数据集名$变量名,即可使用各个变量
 
> read.dta(“文件名.dta”) 
读入数据文件后,使用数据集名$变量名,即可使用各个变量。
>mean(data$age) 
便是计算数据集 data中的变量age的均数。
2.5 函数、循环与条件表达式
2.5.1  编写函数
句法是:
函数名 = function (参数1,参数2…) 
{   
函数体 
函数返回值
} 
对于这类只有一个算术式的简单函数,也要不要{}
>mean(data$age) 
便是计算数据集 data中的变量age的均数。
 
若不使用圆括号,直接输入函数名,按回车键将显示函数的定义式:
单参数:使函数个性化,可使用单参数,函数将会根据参数的不同,返回值不同
>  welcome.sb  =  function(names)  print(paste("welcome",names,"to 
use R")) 
> welcome.sb("Mr fang") 
[1] "welcome Mr fang to use R" 
> welcome.sb("Mr Wang") 
[1] "welcome Mr Wang to use R" 
默认参数:即不输入任何参数
函数的默认参数
>  welcome.sb=function(names="Mr  fang")print(paste("welcome", 
names,"to use R")) 
> welcome.sb() 
[1] "welcome Mr fang to use R"
 
当函数体的表达式超过一个时,要用{}封起来
2.5.2 for循环
for循环的句法是:
for (变量 in取值向量) { 
表达式…
 }

R语言数据对象与运算

8. R语言进行相关性分析

 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度。    一般来讲研究对象(样品或处理组)之间使用距离分析,而元素(物种或环境因子)之间进行相关性分析 。两个变量之间的相关性可以用简单相关系数(例如皮尔森相关系数等)进行表示,相关系数越接近1,两个元素相关性越大,相关系数越接近0,两个元素越独立。
   Pearson相关系数是用于表示相关性大小的最常用指标,数值介于-1~1之间,越接近0相关性越低,越接近-1或1相关性越高。正负号表明相关方向,正号为正相关、负号为负相关。适用于两个正态分布的连续变量。
   利用两变量的秩次大小来进行分析,属于非参数统计方法。适用于不满足Pearson相关系数正态分布要求的连续变量。也可以用于有序分类变量的之间的相关性测量。
   Kendall's Tau相关系数是一种非参数检验,适用于两个有序分类变量。
   此外衡量两个变量之间关系的方法还有:卡方检验、Fisher精确检验等。
   Pearson、Spearman、Kendall相关系数都可以通过cor函数实现,cov协方差函数参数同cor函数。
                                                                                                                                                                                                                                                                                           ggcorrplot包内只有2个函数,一个cor_pmat()用于计算p值,一个ggcorrplot()用于绘图。ggcorrplot相当于精简版的corrplot包,只有主题更加丰富多样。
                                                                                                                                                                                                                                                   This function computes and returns the distance matrix computed by using the specified distance measure to compute the distances between the rows of a data matrix.   这个函数用特定的方法计算矩阵的行之间的距离,并返回距离矩阵。
   scale是对矩阵的每一列进行标准化,如果要对行标准化需要先转置。如 heatmapdata <- t(scale(t(heatmapdata)))