中国学术期刊网 » 论文 » 工学论文 » 化学工程论文 » 基于因子分析的烤烟香型定量判别模型的构建与验证论文正文

基于因子分析的烤烟香型定量判别模型的构建与验证

中国学术期刊网【化学工程论文】 编辑:天问 云南大学学报(自然科学版) 2016-11-03基于因子分析的烤烟香型定量判别模型的构建与验证论文作者:李超 秦云华 高锐 吴家灿 李娥贤 叶宏 张承明 熊文,原文发表在《云南大学学报(自然科学版)杂志》,经中国学术期刊网小编精心整理,仅供您参考。

关键词: 烤烟烟叶; 化学组成; 多元因子分析; 判别分析; 对应分析
摘要:为研究烤烟化学组成与其香型和产区间的关系,通过抽样方法收集了2012年国内14省17个品种128个烟叶样品.参照相关行业标准及文献方法测定影响其品质的117种化学指标,对各指标采用MFA降维处理,因子得分构建Bayes香型定量判别模型,并对香型与产区进行对应分析.结果表明:① 原始指标可提出24个公因子,其对原变量的总方差解释率为85.488%;② 定量判别模型能依据巨豆三烯酮、呋喃、碱等类物质的含量对烟叶样品香型进行很好的预测,回判及预测正确率≥ 97.0%;③ 经因子得分加权的香型与品种对应分析结果与主观经验总体一致,各品种的香型特质排序为:清香:红大≥CB-1;中间香:遵烟6号≥贵烟201>毕纳1号>贵烟4号;浓香:中烟100>中烟101≥粤烟97>NC55.

中图分类号:TS424 文献标志码:A 文章编号:0258-7971(2016)05-0805-08 doi: 10.7540/j.ynu.20160134

烤烟烟叶根据其燃烧时所产生的香气风格可划分为清香型、中间香型和浓香型3个类别[1, 2, 3].烟叶香型很大程度上决定着不同卷烟的感官风格特征, 是维护卷烟感官质量稳定的重要因素[4], 也是工业生产与配方选用的要素之一.烟叶品种自身的属性及特征对其香型的形成起着至关重要的作用, 不同品种烟叶通常具有各自独特的香型[5].烟叶香型往往受其化学成分所影响, 所以, 对不同香型烟叶的化学组成测定及特征剖析一直以来都是科技工作者的研究热点[6, 7, 8].目前, 关于烤烟香型与其影响因素之间关系的研究报道较多, 研究内容大多集中于不同香型烟叶的化学组成差异[9, 10], 不同部位烟叶特征与化学成分的相互关系[11], 以及不同产区烟叶对香型特征的影响[12].有关烤烟香型的化学组成评价[5, 13]及品种间相关情况[14, 15]虽有一定报道, 但存在所采集的样本种类数量不足, 采用的分析方法片面单一, 未验证数理模型的适用性, 研究内容不够深入具体等问题.对于样品香型的定量判别模型研究, 及其与品种在化学组成加权情况下的交互相关作用则尚未见报道.所以, 基于MFA模型判定并筛选适合的变量[16, 17], 并与多种统计方法联用, 研究对不同类型烟叶香型进行评价, 并与品种进行对应研究, 旨在为不同香型烤烟选择性育种及卷烟配方设计选用提供理论依据.

1 材料与方法
1.1 材料
采用随机抽样方法, 从国内14个省份30个市/州采集2012年的烤烟烟叶样品, 样品统一采集中、上部烟叶, 一共采集17个品种, 总计128个样品, 根据其感官评吸的不同香型风格特征结果可划分为:清香型烤烟烟叶样品46个, 中间香型烤烟烟叶样品36个, 浓香型烤烟烟叶样品46个, 具体见表1.

表1
Tab.1
表1(Tab.1)

表1 烤烟烟叶样品的地区品种描述 Tab.1 Region and variety description of flue-cured tobacco samples烟叶
香型 样品数 采集
省分数 采集
州/市数 品种数 采集省份 采样的品种
清香型 46 4 10 5 云南、福建、贵州、四川 K326、云烟87、红大、CB-1、云烟85
中间香型 36 5 8 8 贵州、湖北、重庆、山东、黑龙江 遵烟6号、K326、贵烟201、毕纳1号、云烟87、云烟97、NC102、龙江911
浓香型 46 7 11 9 河南、广东、安徽、湖南、江西、山东、陕西 中烟100、中烟101、云烟87、云烟85、粤烟97、云烟97、K326、NC55、秦烟96
表1 烤烟烟叶样品的地区品种描述
Tab.1 Region and variety description of flue-cured tobacco samples
1.2 方法
1.2.1 烤烟化学成分检测方法 主要对3种不同香型烤烟中45种中性致香成分(例如β -大马酮、香叶基丙酮、β -紫罗兰酮、降茄二酮、巨豆三烯酮、二氢猕猴桃内酯等)[18, 19]; 6种细胞壁物质(总细胞壁物质、果胶、木质素、全纤维素、α -纤维素、半纤维素)[20]; 18种常规化学成分(氯、钾、总氮、总植物碱、总糖、还原糖、纤维素、葡萄糖、果糖、蔗糖、石油醚提取物、挥发碱、挥发酸、硝酸根、硫酸根、磷酸根、氨氮、淀粉)[21, 22, 23, 24, 25, 26, 27, 28, 29, 30]; 8种金属元素(铁、锰、铜、锌、硼、钙、镁和钠)[31]; 3种多酚(绿原酸、莨菪亭和芸香苷)[32]; 6种生物碱(烟碱、降烟碱、麦斯明、假木贼碱、新烟草碱、2, 3'-联吡啶)[33]; 8种有机酸(草酸、丙二酸、苹果酸、棕榈酸、硬脂酸、柠檬酸、亚油酸、亚麻酸)[34]; 胡萝卜素, 叶黄素以及21种氨基酸[35]; 共117种指标根据现行相关的烟草行业标准及文献方法进行定量检测.

1.2.2 多元因子分析(MFA)模型的建立 本研究由于涉及烟叶中117种指标物质含量的变化, 变量较多, 所以考虑采用Richard创立的多元因子分析(MFA)模型[16]来进行降维处理.该模型是采用较少个数的具有一定相关性的公共因子的线性函数与特殊因子之和来表达原变量X的每一个分量, 以便达到合宜的解释原变量X的相关性并降低其维数的效果, 设MFA的模型为:

X1=α11F1+α12F2+…+α1mFm+ε1X2=α21F1+α22F2+…+α2mFm+ε2Xp=αp1F1+αp2F2+…+αpmFm+εp, (1)

公式可简写为:

X=AF+ε .

公式(1)中F=F1, F2, …, Fm(m ≤ P)为 X 各分量的公共因子, 各Fi的均值为0, 方差为1, 相互独立; ε i为Xi的特殊因子, 只对Xi起作用; 各ε i均值为0, 且相互独立, F与ε 独立, X均值为0, 协方差矩阵cov(X)=∑ , 矩阵A为因子载荷矩阵.为了使Fj和Xi间的关系更清晰和易于理解, 通常采用因子旋转方式, 使Fj中一些因子与Xi间的相关关系更强, 而Fj中的其它因子与Xi间的相关关系则减弱.根据与某个因子相关性更强的几个原始变量(指标)给该因子赋予综合的实际意义, 并计算各因子Fj的因子得分Zj, 所得得分函数为:(Z1, Z2, …, Zm)'=B (X1, X2, …, Xp)', 其中B由回归估计方程B^=A'· R-1得到.比较各烟叶样品的公因子得分, 就能对原始指标及样品的特征作进一步的评价和分析.

1.2.3 统计方法 采用SPSS 18.0统计学软件(SPSS Inc., 美国)的数据处理模块对不同烟叶样品各化学指标及其与香型和品种的关系进行分析.采用多元因子分析(MFA)、Bayes判别分析, 以及对应分析方法来探索不同烟叶样品香型和品种间关系的物质基础.

2 结果与讨论
2.1 不同香型烟叶各指标的多元因子分析(MFA)
对不同烟叶样本进行MFA分析, 由于各指标间量纲及数值差异较大, 所以从相关阵出发, 采用主成分提取方法, 并进行最大方差法旋转, 迭代74次收敛.对取样足够度进行Kaiser-Meyer-Olkin及Bartlett检验, 如表2可知, KMO=0.528> 0.5, 且Bartlett sig.< 0.0001, 呈1%显著性水平, 说明样本适合于进行因子分析.117个指标共可提取24个共同因子, 其所能解释原指标的累积方差贡献率为85.488%, 如表3, 说明在用所提取的24个因子来表征原始指标特性的同时, 可保留绝大部分信息.

表2
Tab.2
表2(Tab.2)

表2 不同烟叶样本的KMO和Bartlett检验 Tab.2 KMO and Bartlett test of different tobacco samplesBartlett df Bartlett sig 近似
卡方值 KMO
度量
6786 < 0.0001 1038887.163 0.528
表2 不同烟叶样本的KMO和Bartlett检验
Tab.2 KMO and Bartlett test of different tobacco samples
表3
Tab.3
表3(Tab.3)

表3 公因子对不同烟叶样本各化学指标的方差解释率 Tab.3 Variance explained rate of common factor for different chemical indexes of tobacco samples成分 合计 方差/% 累积/%
1 20.915 17.876 17.876
2 12.933 11.054 28.930
3 8.792 7.514 36.444
4 7.611 6.505 42.950
5 6.760 5.778 48.728
6 4.978 4.255 52.982
7 4.780 4.086 57.068
8 4.606 3.937 61.005
9 3.543 3.028 64.033
10 2.930 2.504 66.537
11 2.704 2.311 68.848
12 2.071 1.770 70.618
13 2.047 1.750 72.368
14 1.956 1.671 74.039
15 1.899 1.623 75.662
16 1.639 1.401 77.064
17 1.545 1.320 78.384
18 1.455 1.243 79.627
19 1.360 1.163 80.790
20 1.250 1.068 81.858
21 1.112 0.950 82.808
22 1.084 0.926 83.734
23 1.046 0.894 84.629
24 1.005 0.859 85.488
表3 公因子对不同烟叶样本各化学指标的方差解释率
Tab.3 Variance explained rate of common factor for different chemical indexes of tobacco samples
通过因子得分系数矩阵可以列出不同烟叶各原始指标通过线性组合而成的24个公共因子的表达式:

Fj=y1x1+y1x2+…+yixi , (2)

式中xi为样本中各指标变量的标准化值, yi为因子的得分系数, Fj为各因子的因子得分, i的取值范围均为(1, 117).据公式计算各样本的因子得分, 并保存为新变量j=1~24, 可以用来代表原指标衡量烟叶的化学组成和品质特征.

采用因子旋转方(最大方差法)对24个公因子的实际意义进行解释, 如表4, 以2、4、5、10、11、12、13、15和21号共9个公因子为例来说明相应因子的实际意义.由于每个因子所拟合的原变量数较多(117个指标), 所以在旋转载荷阵中, 对9个公因子的载荷均小于0.500的指标予以省略, 表明公因子对这部分指标的解释力较弱.公因子对原始指标的解释能力各不相同.例如, 对于因子2, 总植物碱、氨氮、烟碱、假木贼碱和新烟草碱的载荷均> 0.803, 说明因子2对含氮的碱类物质的解释能力较强, 可命名为“ 碱因子” ; 对于因子4, 巨豆三烯酮的4个异构体(A、B、C、D)的载荷均> 0.940, 说明因子4对巨豆三烯酮的解释能力很强, 可命名为“ 巨豆三烯酮因子” ; 又如, 对于因子5, 糠醛、4-环戊烯-1, 3-二酮、2-乙酰基呋喃和5-甲基糠醛的载荷均≥ 0.782, 说明因子5对呋喃醛或酮类物质的解释能力较强, 可命名为“ 呋喃因子” .以此类推, 10、11、12、13、15、21号公因子分别能对应解释芸香苷、茄酮、二氢紫罗兰酮、绿原酸、钙、苹果酸、柠檬酸和钠类物质, 可命名为各自相应的因子.

表4
Tab.4
表4(Tab.4)

表4 因子旋转矩阵a, b Tab.4 Factor rotation matrixa, b指标 公共因子编号
2 4 5 10 11 12 13 15 21
w(总植物碱)/% 0.925 0.080 -0.027 0.059 -0.092 0.084 -0.058 0.049 -0.044
w(钠)/(mg· kg-1) -0.130 0.046 -0.027 -0.113 0.150 -0.070 0.042 -0.059 0.714
w(钙)(mg· kg-1) 0.006 0.182 -0.188 -0.053 -0.074 -0.140 -0.792 0.172 -0.083
w(氨氮)/% 0.803 0.018 -0.013 -0.034 0.087 0.063 -0.031 -0.070 -0.114
w(绿原酸)/(mg· g-1) 0.067 -0.047 0.047 0.089 0.010 0.775 0.050 -0.110 -0.028
w(芸香苷)/(mg· g-1) 0.013 -0.270 -0.269 0.720 0.029 0.057 0.042 -0.074 -0.083
w(苹果酸)/(mg· g-1) 0.117 0.204 -0.103 0.003 -0.070 -0.055 -0.115 0.741 -0.060
w(柠檬酸)/(mg· g-1) 0.101 0.004 -0.176 -0.034 -0.008 -0.107 -0.034 0.786 -0.013
w(糠醛)/(μ g· g-1) -0.134 -0.071 0.782 0.022 0.110 0.115 -0.003 -0.059 -0.039
w(4-环戊烯-1, 3-二酮)/(μ g· g-1) 0.195 -0.014 0.794 0.034 0.008 -0.009 0.125 -0.064 -0.055
w(2-乙酰基呋喃)/(μ g· g-1) -0.083 0.008 0.860 -0.080 0.087 0.087 0.076 -0.025 -0.009
w(5-甲基糠醛)/(μ g· g-1) 0.084 0.099 0.797 -0.156 -0.005 0.151 0.030 -0.033 -0.016
w(茄酮)/(μ g· g-1) 0.126 -0.111 -0.046 0.026 0.680 -0.025 0.052 0.038 -0.049
w(巨豆三烯酮A)/(μ g· g-1) 0.141 0.940 -0.015 -0.079 -0.018 -0.012 -0.021 0.044 0.019
w(巨豆三烯酮B)/(μ g· g-1) 0.130 0.941 -0.010 -0.071 0.007 -0.012 -0.037 0.016 0.018
w(巨豆三烯酮C)/(μ g· g-1) 0.123 0.942 0.066 -0.059 -0.024 0.047 0.020 0.035 0.015
w(巨豆三烯酮D)/(μ g· g-1) 0.120 0.945 0.060 -0.041 0.002 0.044 0.000 0.017 0.019
w(二氢紫罗兰酮)/(μ g· g-1) -0.159 0.186 0.074 0.021 0.774 0.097 -0.015 -0.038 0.178
w(烟碱)/(mg· g-1) 0.921 0.050 -0.028 0.086 -0.155 0.071 0.001 0.083 -0.039
w(假木贼碱)/(mg· g-1) 0.891 0.198 0.174 0.001 0.069 -0.067 0.010 -0.002 0.014
w(新烟草碱)(mg· g-1) 0.837 0.049 0.119 0.073 -0.068 -0.110 0.130 0.055 0.050
a.提取方法:主成分分析法; b.旋转方法:带Kaiser规范化的最大方差法
表4 因子旋转矩阵a, b
Tab.4 Factor rotation matrixa, b
2.2 不同烟叶香型定量判别模型的构建及验证
以2.1中MFA降维所提取到的24个因子得分为新的自变量来对烟叶进行香型Bayes判别分析研究.选择香型为分组变量, 并赋值(0=清香、1=浓香、2=中间香).采用步进方式筛选变量, 矩阵为组内相关, 距离计算为Wilks' Lambda, 构建Bayers判别函数.最终进入判别函数的变量为:Fn(n=2, 4, 5, 10, 11, 12, 13, 15, 21).Bayers判别函数的表达式可由标准化的判别函数系数矩阵写出.具体表达式为:F1= 0.481 x2-1.517 x4+0.452 x5+0.904 x10 -0.761 x11 -0.048 x12+0.837 x13 -0.248 x15+0.110 x21; F2= -0.607 x2+ 0.076 x4 -0.622 x5+0.705 x10+0.309 x11+0.200 x12+0.339 x13+0.109 x15+0.252 x21.通过判别函数可以对原始的128个训练样本各自所属类别进行回判和留一交叉验证.输出结果见表5, 从中可知, 判别函数对交叉验证分组案例中的样品进行回判, 即采用预先设定好的所有不同香型样本进行建模后来返回拟合原样本数据, 正确率为98.6%.对初始分组案例中的样本进行留一交叉验证, 每个案例都是按照从该案例以外的所有其他案例派生的函数来分类, 即用其他预先设定案例建模后来逐一对留下的一个案例进行分类预测, 并验证, 其正确率为97.0%.通过样本非标准化的Fisher函数计算Z得分可作出双坐投影图, 见图1, 由图1可知, 3种不同香型的烟叶样本在平面投影至不同的区域, 区域间并未出现明显重叠现象.综上所述, 此种判别分析定量模型可以对不同烟叶样品的香型进行正确的判别及分类.综合2.1中因子旋转矩阵的分析可以进一步解释, 烟叶香型可以主要依据原始变量中的碱、巨豆三烯酮、呋喃、芸香苷、茄酮、二氢紫罗兰酮、绿原酸、钙、苹果酸、柠檬酸和钠等类物质的含量来进行判别.

表5
Tab.5
表5(Tab.5)

表5 不同烟叶样本判别分类结果b, c Tab.5 Identification and classification results of different tobacco samplesb, c指标 香型 预测组成员 合计
清 浓 中
初始 清 1544 0 0 1544
计数 浓 0 1262 27 1289
中 0 30 1150 1180
清 100.0 0.0 0.0 100.0
比率/% 浓 0.0 97.9 2.1 100.0
中 0.0 2.6 97.4 100.0
交叉验证a 清 1544 0 0 1544
计数 浓 0 1197 92 1289
中 0 30 1150 1180
清 100.0 0.0 0.0 100.0
比率/% 浓 0.0 92.9 7.1 100.0
中 0.0 2.6 97.4 100.0
a.仅对分析中的案例进行交叉验证, 在交叉验证中, 每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的; b.已对初始分组案例中的 98.6% 进行了正确分类; c.已对交叉验证分组案例中的 97.0% 进行了正确分类.
表5 不同烟叶样本判别分类结果b, c
Tab.5 Identification and classification results of different tobacco samplesb, c

图1
Fig.1
Figure OptionView
Download
New Window
图1 典型判别函数的双坐标投影图
Fig.1 Two-coordinate projection of canonical discriminant function

2.3 不同烟叶香型和产区的对应分析
对128个不同烟叶训练样本的香型和品种指标进行对应分析.以香型为横栏、品种为纵栏列出2变量的列联表, 横纵栏交叉位置数字为相应的24个公因子判别分析结果计数.首先对因子变量得分进行个案加权, 具体为:将24个因子得分判别分析结果计数全部合为一列, 计数结果值作为权重对相应的品种进行个案加权, 同一品种有24个得分值.定义香型为行变量, 范围为(0, 2), 品种为列变量, 范围为(0, 16), 然后采用卡方作为距离度量, 进行2维解, 并采用主要列方法进行正态化, 最后对分析结果绘制双坐标图, 见图2.从图2可知, 17个品种按照不同的香型可以划分为4类, 品种香型归属判断采用所有样品值, 清香型典型品种为红大和CB-1; 中间香型典型品种为贵烟4号、贵烟201、遵烟6号和毕纳1号; 浓香型典型品种为中烟100、中烟101、粤烟97和NC55; 临界区域香型品种为云85、云87、云烟97、K326.其中清香型、中间香型、浓香型各典型品种与感官评吸结果一致.另外, 从坐标图上各品种与香型的相对距离可以看出, 各品种的香型特质排序为:清香:红大≥ CB-1; 中间香:遵烟6号≥ 贵烟201> 毕纳1号> 贵烟4号; 浓香:中烟100> 中烟101≥ 粤烟97> NC55.对于临界香型品种的香型特质来说:云85、云87和K326属于临界偏清香型, 云97则属于临界偏中间香型.


图2
Fig.2
Figure OptionView
Download
New Window
图2 烟叶香型和品种对应分析的双坐标图
Fig.2 Two-coordinate projection of corresponding analysis of tobacco flavor and variety

3 讨 论
采用因子分析方法可以化繁为简, 在保留原始各指标绝大部分信息的基础上, 有效简化样本特征, 有利于后面Bayes判别函数的构建及表达式的书写.通过逐步判别的方法可以有效筛选出对香型判别具有显著性影响的公因子, 例如, 巨豆三烯酮因子、呋喃因子.构建定量判别模型后, 对128个不同烟叶训练样本的香型和品种指标进行对应分析.以香型为横栏、品种为纵栏列出两变量的列联表, 横纵栏交叉位置数字为相应的24个公因子逐步判别分析结果计数.此处, 将所有样本列入计算, 由于不同品种在种植区的分布并不均匀, 对分布区域明显的品种而言, 对应结果似乎更多反映了产区的影响.但是气候、海拔、雨水等自然条件对不同品种烟叶香型的表达影响深远.除此类外部影响因素以外, 诸如基因组、蛋白质组等烟叶品种的内在因素在其香型表达中亦有重要作用.所以对应分析所表达的是一个综合结果.