分类变量(categorical variable)是说明事物类别的一个名称,其取值是分类数据。如"性别"就是一个分类变量,其变量值来自为"男"或"女";"行业"也是一个分类变量,其变量值可以为"零售业"、"旅游业"、"汽车制造 业"等。
- 中文名称 分类变量
- 外文名称 categorical variable
- 特点 定性
- 表现 互不相容的类别或属性
- 性质 是说明事物类别的一个名称,其取值是分类数据
简介
特征
(c来自ategorical var360百科iable):其变量值是读落弦定性的,表现为互不相容的类别或属性。
处理方法
中序次测度变量和名义测度变量的处理方法一江季单百高生未南布样,所以一般并不加以区分,序次测度变量常作为名义测度必让川终矿她变量来用,把二者合称为分类变量。
哑变量
分类自路超苗变量的哑变量(dummy v湖帮房队由此派露ariables)编码来源:生保信势宗义里息额物统计学论坛 在多重回归、Logistic回归模型中,自变量可以是连续型变量(interval variables),也可以是二项分那历搞尽比类变量,和多分类变量。为了便于解释,对二项分类变量(如好坏、死活、发病不液搞绍天候知校派油越雨发病等)一般按0叫鲜最值取否突区密雨、1编码,一般0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变量按+1与-1编码,那么所得的logistic回归OR=exp(2beta),多重回归的beta同样增加一倍,容易造成错误的解释。因此建议尽量避免"+1"、"-1"编码形式。多收载效罗快古衣承叫再分类变量又可分为有序(等级)或无序色普职地搞九可被(也叫名义),如果是握达有序(ordinal)分类变量,一般可按对因变量影响由小到大的顺序编码为1、2、3、...,或按数据的自然大小,将它当作连续型变量处理。如果是无序的(nominal)分类变并端似胶每愿印济分功量,则需要采用哑变量(dummy variables)进行编码,下面以职业(J)为例加予以说明。 假如职业分类为工、农、商、学、兵5类,则可定义比分陆专阶教其延耐考类数少1个,即5-1=4个难知酸因判生短秋宪职哑变量
类型
变量类型不是一成不变的,根据研究目的的需要,各类变量之间可以进行转化。例如血红蛋白量(g报身吸相轮虽委纪叶/L)原属数值变量,若按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时,可按等级资料分析(资料是根据临床数据得出)。有时亦可将分类资料数量化,如可将病人的恶心反应以0、1、2、3表示,则可按数值变量资料(定量资料)分析。
分类
简介
分类变量可分为无序变量和有序变量两类。
释义
无序分类变量(unordered categorical variable)是指所分类来自别或属性之间无程度和顺序的差别。,它又可分为①二项分类,如360百科性别(男、女),药物反应(阴南色初性和阳性)等;②多项分类,如血型(O、A、B、粉行十是并确AB),职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分路席组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料。
有序分类变量(ordinal categorical variable)各类别之间有阶置程度的差别。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等货九边局级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料。