您当前所在位置:首页 > PPT课件 > 化学课件PPT → 化学计量学基础ppt

化学计量学基础ppt

PPT预览

化学计量学基础ppt

PPT内容

这是化学计量学基础ppt下载,主要介绍了分析化学数据;光谱数据和定量校正曲线;光谱成像数据;化学计量学简介;化学计量学定义;化学计量学的典型应用,欢迎点击下载。

高等仪器分析 -化学计量学主讲人:杜一平分析化学数据实验数据化学分析:单点数据仪器分析:多维数据数据维数增加 0维-标量;1维-向量;2维-矩阵;3维-张量;… 样本数量增大数据量越来越大趋势,数据库,海量数据,大数据(big data) 大数据量显然信息量大,但挖掘有用信息难度也大;数据处理方法研究越来越重要:化学计量学方法应用不止局限于分析化学学科:相关学科不同产地南丰蜜桔HPLC指纹图谱收集江西(18个)、福建(18个)、湖南(18个)和广西(10个)南丰蜜桔样品,经有机溶剂提取后进行HPLC分析 X:46×4632 对64个HPLC色谱图进行主成分分析:X = U S VT 特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4% Scores散点图:样本点分类光谱数据和定量校正曲线光谱成像数据蛋白质各级结构 (a) Primary structure (b) Secondary structure Alu-Glu-Val-Thr-Asp-Pro-Gly- α-Helix β-Sheet (c) Tertiary structure (d) Quaternary structure 图 肽链在空间卷曲特定的三维空间结构数据的表达-数字化 0维-标量:x=2;1维-向量:x=[1 3 5 7]; 2维-矩阵:X=; 3维-张量:Z=[X1 X2 X3 …] 化学计量学简介化学计量学简介化学计量学定义化学计量学发展化学计量学的典型应用传统定性定量分析:多元分辨、多元校正仪器量测信号处理:数据处理方法、最优化方法模式识别:污染源识别、疾病诊断、中药识别、…;试验设计:分子设计和药物设计:新药发现及结构性能关系(QSAR)研究;过程分析:工业过程监测和控制。化学计量学基本特点多维数据:向量,矩阵,张量。多变量数据来自各种测量:典型的为仪器分析数据。信息提取方法:利用各种手段持续发展的科学化学计量学研究内容化学计量学方法:常用数据处理方法平滑窗口移动平均法 Savitzky-Golay平滑法-多项式拟合 Savitzky-Golay平滑权重系数表 (多项式阶次为2或3)求导 提高信号的分辨率,减少干扰。紫外-可见光谱分析中用到的导数分光光度分析; 近红外光谱分析中,常用2阶或1阶导数光谱进行定性定量分析; 电化学分析中,有时利用对溶出伏安曲线求导来去除或减少其它组分的干扰,提高被测组分的信噪比。有很多种类的分析仪器已经把求导作为一种固定的方法,加入到仪器的数据处理软件中 。 1.差分法窗口宽度k=9,p=4,3阶导数表达式, d3x/dj3|j=0=1/198( -14x -4+ 7x -3+ 13x -2+ 9x -1-9 x1-13x2-7x3+ 14x4) 拟合实验数据理论解释研究变量之间关系:y=f(x) 多个变量 y=f(x1,x2,…) 函数拟合基本思想 =f(a,x) Ei= - yi = f(a,xi) -yi 差方和ΣE2最小。拟合计算工具 Excel 主成分分析主成分分析,Principal Component Analysis, PCA 最基本的化学计量学方法之一是很多复杂化学计量学方法的基础应用广泛主成分分析四个产地南丰蜜桔样品HPLC分析 X:46×4632 对64个HPLC色谱图进行主成分分析:X = U S VT 特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4% Scores散点图:样本点分类主成分分析 一种重要降维方法基本思想:对量测矩阵Y中的各个变量进行线性组合,形成新的变量,称为主成分。主成分计算原则是得到主成分表达的方差最大,化学意义就是所含信息最多。计算方法:按方差最大,计算各个变量的线性组合,得到第一主成分;对剩余的矩阵,即量测矩阵Y减去第一主成分表达部分,再按方差最大原则,计算各个剩余变量的线性组合,得到第二主成分;依次计算第三、第四、… 主成分。新变量之间相互正交。方差代表表达的信息量,按顺序减少,可用来评估主成分解释的信息百分率。 Matlab方法 [U,S,V]= svds(X,n) 多个主成分,多个投影方向多维主成分分解(n) x=[x1 x2 ... xn] 将x投影到[vi1 vi2 … vin]t上得到新变量yi, [vi1 vi2 … vin]t就是系数向量,即投影方向。所有n个新变量组成矩阵Y yi=vi1x1+vi2x2+…+vinxn ,(i=1,2,…,n) 例高分子液晶材料在不同温度下结晶情况 Infrared transmission spectra of 11-layer LB films of FLC-1 measured at room and elevated temperatures. Temperature dependences of the frequencies of the CH2 symmetric stretching band (a), C=O stretching band of the part near the chiral carbon atom (b) and the phenyl ring stretching band (c) for the 11-layer LB films of FLC-1. PC1 vs. temperature plot in both 40-80C (a) and 27-55C (c) temperature intervals and those in full measured temperature range (b) at range of 1450-1745 cm–1 for the 11-layer LB films of FLC-1. 几种化学计量学方法简介多元校正多元分辨模式识别定量构效关系最优化方法多变量校正多元线性回归MLR 多元线性回归方法-最小二乘法: y=Xc+e e = y- Xc 残差平方和 S= ete = (y- Xc)t(y- Xc) =yty-yt(Xc)-(Xc)ty +(Xc)t(Xc) =yty - ytXc - ctXy +ctXtXc =yty - 2ytXc +ctXtXc = -2Xty +2XtXc=0 则, XtXc =Xty =(XtX)-1Xty Matlab: c=inv(X’*X)X’*y 多元线性回归解具有优良的统计学性质多元线性回归解的性能指标 =(XtX)-1Xty , =X 相关系数:R2= =1 - 残差平方和RMS 多元线性回归应用建模与浓度计算 y=Xc+e 常见多元校正方法四种不同液体表面活性剂 NIR光谱PLS校正结果 (两个组分校正) 多变量分辨麦秸高温高压裂解气相产物,GCMS分析经HELP解析确定了整个保留时间内共有组分45个 化学模式识别 模式识别方法:定量构效关系药物设计:是现代化新药开发工作非常重要的一个环节,从20世纪60年代以来,经过40多年的不断探索和努力,现代药物设计的策略和方法已经大为丰富。最基本的药物设计方法就是从一组(例如几十个)小分子化合物的结构和生物活性数据出发,利用定量构效关系方法,研究其结构-活性关系的规律,在此基础上预测新化合物的生物活性(药效)和进行高活性分子的结构设计。分子设计:材料分子设计,荧光探针分子设计等。现代最优化方法 现代最优化方法 - 搜索全局最优解 模拟退火法 遗传算法 人工神经网络 蚁群算法 粒子群算法遗传算法(Genetic Algorithm,GA) 达尔文进化论思想,适者生存模拟生物的自然进化过程进行最优解搜索。自然进化的特征在20世纪60年代得到美国Michigan大学的John Holland极大兴趣,他和他的学生们吸收了自然进化的思想,提出机器学习的新算法,Holland将其取名为遗传算法。 1975年,Holland出版了颇有影响的专著Adaptation in Natural and Artificial Systems, 之后,遗传算法才逐渐被人们所知。 遗传算法基本思想生物遗传基本单元个体染色体(基因)种群繁殖过程进化规则:优胜劣汰遗传算法由六个基本的操作组成: 1)编码:根据要解决问题的特征,将问题的解在其解空间中表示成遗传空间的基因型串结构数据(染色体)。 2)初始群体的生成:随机产生N个初始串结构数据,每个串结构数据称为一个个体,N个个体构成了一个群体。 3)适应性值评估检测:适应性函数表明个体或解的优劣性。 4)选择:目的是为了从当前群体中选出优良的个体,使它们有机会作为父代为下一代繁殖子孙。 5)交叉:最主要的遗传操作。通过交叉换操作可以得到新一代个体,新个体组合了其父辈个体的特性。交叉换体现了信息交换的思想。随机产生交叉。 6)变异:首先在群体中随机选择一个个体,对于选中的个体以一定的概率随机地改变串结构数据中某个串的值。遗传算法实例 151种血脑屏障穿透化合物,利用遗传算法从154种分子结构描述符中选择有限数目的描述符,建立这些化合物结构与血脑屏障穿透能力之间的关系,本项工作的关键就是变量选择(即描述符选择)。 解题难点变量优劣评价方法 151个样本变量组与指标建模,考察模型好坏。变量选择方案穷举:变量组合数目及其庞大, ,其中, 继续计算out of memory。无法计算。单因素轮换:单变量最优-加入第二变量-…-最后,从中选择最优结果,154+153+…+1=11935,贪婪算法,局部最优遗传算法思路随机安排初值三种进化机制优化变量进化过程随机性避免落入局部最优 1)二进制编码:用154位的二进制串来表示变量,即表示154个结构描述符,如果串中某位为0表示对应的变量没有被选择,反之为1就是选择了该变量。 2)适应性函数FIT :用选择的变量代表化合物结构,用多元线性回归方法MLR建立变量与血脑屏障穿透能力之间的构效关系模型,利用去一交互检验法LOO计算相关系数Q。式中的n是化合物数目,k为所选变量个数。 FIT越大越好。 3)群体大小为500,进化次数,即迭代次数定为5000次。 4)遗传算法计算- 随机性初始二进制编码为随机产生使用轮赌方式进行选择,交叉和变异发生的点位都随机产生,交叉时,将双亲二进制串从随机产生的交叉点向后的所有位进行交叉,变异时每次只是对随机产生的点进行变异。交叉和变异对进化过程影响非常大,所以对它们加以限制,即并非每次都发生交叉和变异,而是用概率来进行控制,交叉概率为0.6,变异概率为0.2。交叉变异 5)对这组数据进行计算后,最优结果选择了6个变量,得到的构效关系模型如下: LogBB=0.120-0.0016×[50]+0.0014×[69]-0.0011×128]+0.0057×146]-0.0108×[147] +0.0395×[152] 遗传算法本质提供一个最优解搜索策略很多操作参数需选择和优化随机性三个优化方式是核心人工神经网络(Atificial Neurial Network,ANN) 1943年,Warren McCulloch和Walter Pitts根据已知的神经细胞生物过程原理,构造了人类历史上第一次的人工神经元,后来,人们称它为M-P模型。各种人工神经网络:感知机、自适应线性神经网络、Hopfield网络模型、Boltzman机、反向误差传播训练算法等 非线性关系生物神经元组成:细胞体、树突和轴突树突:接受外界信号轴突:向其他神经元传递信息细胞体:处理信号生物神经系统人的神经系统1011个神经元每一个生物神经元都是生物组织和化学物质的有机结合 人工神经元人工神经网络: BP模型-反向误差传播人工神经网络 BP算法提供了一种寻优的框架围绕算法的基本框架,适当调整网络内容,到达更好的运算结果 人工神经网络实例-定量分析多元校正:非线性关系苯巴比妥、安替比林、盐酸麻黄碱、非那西丁、咖啡因、茶碱和可可碱7种组分,配制不同浓度搭配的混合液27个。在190-320nm光谱范围测定各个混合液的紫外光谱。此体系光谱在190-320nm范围内为非线性光谱。将光谱数据进行主成分分析选择使8个主成分,并进行数据归一化。输入数据:27样品×8变量输出目标:7种组分的浓度输入层有9个神经元,分别输入8个主成分数据和一个偏置信号隐含层也有9个神经元输出层有一个节点,输出被测组分浓度 。输出函数使用S函数。各个初始权值Wij和Wjk,都在区间[-0.5,0.5]内随即产生。 18个样品数据作为训练集,用于学习 6个作为监控集,用于监控训练过程,确定何时终止训练 3个作为未知集,用于对整个模型进行检验用BP算法和PLS算法得到的苯巴比妥、盐酸麻黄碱、咖啡因的计算误差 Thank you !

相关PPT

中国计量学院ppt:这是一个关于中国计量学院ppt,主要介绍了中国计量学院简介、历史沿革、校训、院系设置、学科介绍、校园一景等内容。
《化学计量学基础ppt》是由用户huangyixuan于2019-10-27上传,属于化学课件PPT。

标签:

相关PPT

缩略图

  • 化学计量学基础ppt