本文围绕“小麦在储藏中易霉变、现有理化检测(GC-MS、HPLC、平板计数)准确但慢、贵、难以在储粮现场实时使用”这一实际问题,构建了一条完整的研究链:先用顶空固相微萃取结合气质联用(HS-SPME 与 GC-MS)解析小麦霉变过程中的挥发性气体,锁定一个挥发性标志物;再以这个标志物为模板分子,合成分子印迹聚合物(MIP,一种对模板分子有靶向选择性的聚合物)、金属有机框架(ZIF-8)和疏水二氧化硅的复合气敏材料并做表征;接着把这套材料修饰到石英晶体微天平(QCM)金电极上做成气敏传感器,评估其响应、灵敏度、检测限、选择性、疏水性等传感特性;然后以该传感器为核心集成一台小麦霉变专用嗅觉检测装置(硬件加软件);最后用装置采集数据,提取 12 维特征参数,建立 4 种分类模型与 4 种回归模型,做霉变程度分类(支持向量机 99.1%)与污染水平定量预测(随机森林 R²=0.97、RPD=5.59)。
论文工作量是实在的:材料合成与多手段表征(SEM、XRD、水接触角、能谱)做得比较系统,传感器制备到整机集成、再到完整检测流程都走通了,分类与回归两类模型也做了横向对比,章节结构完整、图表丰富。从“理论基础到核心部件到技术平台到应用研究”的递进逻辑清楚,体现了作者较好的动手能力和跨材料、传感、机械、算法的综合工程素养。
但通读全文后,论文在三个环节上的证据强度撑不住它给出的结论强度,需要作者补做实验或重做分析才能修复,不是改改措辞就能了结的。第一,作为全文地基的标志物(第 2 章)选得有问题——它在最需要它的早期检测不出来,且只凭一个相关系数最高就定了它一个。第二,第 2 章正文写的两组数据,在它自己引用的表和图里一个都找不到,动摇了整章数据的可信度。第三,第 6 章那些漂亮的高指标,建立在一套会让指标虚高的实验与建模设计上,无法证明装置真的能“检测霉变”。下面分条说明。
系统解析了小麦霉变过程中的挥发性气体谱,并建立了气味与菌落总数的关联分析框架。 作者用 HS-SPME 与 GC-MS 对 7 个霉变梯度的小麦样品做了挥发性成分解析,检出 28 种主要挥发性化合物,同步用平板计数法测了菌落总数,并做了二者的相关分析。这套“气味解析加污染水平测定加相关分析”的工作为后续标志物锁定提供了数据基础,方法路线规范。
合成了 MIP、ZIF-8、疏水二氧化硅复合气敏材料,并通过多手段表征验证了材料结构。 作者以挥发性标志物为模板做了分子印迹,再掺杂 ZIF-8 拓宽线性范围、掺杂疏水二氧化硅抗湿度干扰,用 SEM、XRD、水接触角、能谱做了较系统的表征。这套复合修饰材料的合成与表征是论文较扎实的一块,疏水改性对抗高湿干扰的思路也契合储粮现场的实际需要。
集成了一台小麦霉变专用嗅觉检测装置,并建立了分类与回归双模型的完整检测流程。 作者把 QCM 传感器、气路时序控制、质量流量控制器、上位机控制软件集成为一台整机,设计了 5 种工作状态的气路切换,自研了三层架构的控制软件,并打通了“采数据到提特征到建模到预测”的全流程。把材料、传感、装置、算法串成一个可运行的检测系统,是本文工作量的集中体现。
(说明:上述创新点(2)“突破选择性差、实现特异识别”的宣称口径、创新点(3)“创制装置”的自研边界,分别存在与实测数据、与实情不符之处,详见第三部分意见 4 与意见 5。此处先客观列出作者所做的工作,对其宣称强度的修正在问题部分展开。)
定位:第 6 章 §6.1.1(印 84)、§6.2.2 图 6-3/6-4(印 99)、§6.2.3(印 103)、§6.2.4(印 108–112)
问题:第 6 章是全文唯一产出高指标的章节,但这些数字是用一套从头到尾会让指标虚高的实验和建模设计跑出来的,四个毛病环环相扣,使得分类 99.1%、回归 R²=0.97 只能证明模型认出了“实验室这一批小麦的 7 个时间点”,证明不了它真的学会了“什么样的气味对应什么程度的霉变”。这是全文最需要先解决的问题。
证据:
为什么是问题:先说结论——这 112 个样本不是 112 个互相独立的样本,所以模型不用真学到本事就能拿高分。同一个霉变天数下的 16 个平行样,来自同一品种、同一批、同一加速处理,彼此几乎是同一条曲线的复制品(统计学叫伪重复,pseudoreplication,指把对同一个实验对象的多次测量当成了多个独立样本)。真正独立的实验对象只有 7 个霉变天数。当把这 16 个近乎一样的样本随机打散到训练集和测试集两边时,测试集里的每个样本,在训练集里都能找到十几个几乎一模一样的“孪生兄弟”。于是模型不需要学会“霉变到什么程度对应什么气味”,只要记住“第 5 天那一簇曲线长什么样”,测试时遇到第 5 天的样本直接匹配就行——这就是数据泄露。Hurlbert(1984,《Ecological Monographs》)当年统计 1960 年以来的实验研究,发现近一半用了推断统计的研究都犯了这个错,把伪重复当独立样本会人为夸大样本量、压低误差、让指标虚高。
后面三个毛病在这个地基上继续抬高虚高度。其一,特征筛选时用了“特征和答案的相关性”来挑特征,等于在分训练测试集之前先偷看了全部样本(包括将来要当测试集的那些)的答案——Hastie 等在《统计学习基础》里把这种做法直接叫“错误的交叉验证方式”,Ambroise 与 McLachlan(2002,《PNAS》)也证明了它会带来明显的乐观偏差。其二,在 5 套特征集里挑“测试集上表现最好的那套”,等于又拿测试集的成绩来做选择,测试集就不再是没见过的数据了。其三,菌落总数只有 7 个离散档、且随霉变天数近乎单调递增,这种情况下目标的方差几乎全来自档与档之间的台阶,一个零参数的傻瓜模型(比如永远预测均值、或按天数线性外推)就能解释掉绝大部分方差、轻松拿到高 R²——所以 0.97 这个数根本分不清“模型真学到了”和“只是认出了 7 个档”。RPD(剩余预测偏差,等于真值标准差除以预测误差)也因为真值跨度大而被结构性抬高,Bellon-Maurel 等(2010)批评过这种“RPD 神话”。这四点叠加,使得第 6 章这些指标无法支撑“实现定量检测、可取代理化检测、储藏现场靶向精量识别”的结论强度——结论本身未必假,但现有实验设计证明不了它。需要说明的是,作者在 §7.3 已经诚实地写明“只对郑麦 136 在实验室条件下检测,后续要验证不同品种、产地、年份”,这条自我披露恰好印证了泛化性还没验证。
修改建议:
定位:第 2 章 §2.2.4(印 25)、表 2-2(印 22–23)、图 2-6(印 21)
问题:第 2 章正文有一段在描述两种物质含量随霉变怎么变,给了两组具体百分数,但翻到它紧跟着引用的表 2-2 和图 2-6,这两种物质各时间点的实测值跟正文写的对不上——正文的四个数,在表里图里都查不到。第 2 章是全文标志物选择的地基,这一章的数据如果“正文写的图表里找不到”,会直接动摇读者对整章解析结果的信任。
证据:
为什么是问题:正文写的这四个数(9.75、21.27、4.81、7.12),把表 2-2 全部 28 种物质、7 个时间点约 130 个数据格逐一比对,一个都找不到,图 2-6 的数据标签里也找不到。一开始要排除一种善意的可能——会不会是“图用峰面积、表用相对含量”两套口径,数字不同但都真实?核对下来不是:表头、图的纵轴、正文叙述三处口径完全相同,都是“相对百分含量(%)”,而且图 2-6 里 4-甲基-2-戊酮那条柱子的数据标签和表 2-2 数值几乎逐点重合,说明图和表就是同一套数据的两种画法,不存在口径差。趋势方向也对不上:正文说 4-甲基-2-戊酮“此后维持在 20%~25%”,但实测第 7 天 11.52、第 9 天 15.93,两个点都明显跌出 20% 这条下限;正文说 3-辛酮“从 4.81 单调增到 7.12”,但实测是第 7 天 2.76、第 9 天先降到 1.5、第 11 天再升到 6.73,既不是单调增,起止数也都不是那两个数。最宽容的解释是笔误,但这四个数在全表任何物质任何时间点都找不到对应,不是“抄错行抄错列”那种能定位到源头的笔误(比如把 19.33 写成 21.27 还能理解,但 9.75 在全表附近没有任何近邻值)。无论是笔误还是别的原因,作者都必须回原始数据核对,把正文数字改成和图表一致,或者补出这四个数的来源。这里要客观说明:这是“正文数据与图表对不上、来源不明”,不是数据造假——3-辛酮第 11 天实测 6.73 与正文 7.12 接近,更像记录或誊写环节出了问题,但它确实动摇了第 2 章数据的可靠性。
修改建议:
定位:第 2 章 §2.2.2 表 2-2(印 22)、§2.2.4(印 25)、图 2-10(印 25)、§1.3.1 研究目标(印 10)
问题:这篇论文从头到尾卖的是“小麦霉变早期检测”,可它选定的那个唯一标志物(1-辛烯-3-醇),在自己实测的最早两个时间点根本测不出来,要到第 3 天才第一次冒头。这等于让报警器对最早的霉变信号天然失灵。再加上“只看哪个相关系数最高就定它一个”的选法、以及“自己说菌落总数不能判定霉变程度、转头又拿它当唯一对照”的口径矛盾,这个标志物的地基有三处裂缝。标志物是全文研究链的起点,地基松了,后面的 MIP 靶向合成、双模型预测的机理正当性都跟着悬空。
证据:
为什么是问题:先说三处裂缝里最硬的一处——用一个在本文实验里早期两个时间点都测不到的分子,去做“早期检测”的靶分子,等于让报警器对最该报警的时段失灵。早期检测的价值,就在于霉变刚启动、肉眼还看不出时就预警;而在本文这套加速霉变实验的实测数据里,1-辛烯-3-醇第 0 天、第 1 天未检出,第 3 天才出现且仅 3.21%(全程最低,到第 11 天涨到 17.33%,是第 3 天的 5.4 倍)——也就是说,在本文自己的数据里它早期缺席、要到中后期才起来,恰好把灵敏度给了最不需要的后期。这里要公允:1-辛烯-3-醇确实是国际公认的真菌霉变标志物(文献里 Aspergillus、Fusarium、Penicillium 等真菌都产它,文献中也常把它列为粮食霉变的早期标志物),作者选它作“霉变标志物”本身没错;但“是公认标志物”回答的是“它能不能表征霉变”,回答不了“在本文这套数据里它能不能撑起早期检测”。领域里筛早期预警标志物的规范判据是“在可见霉变之前、霉菌代谢早期就能检出”,而本文实测它 0 d、1 d 未检出、3 d 才出现,与本文设定的早期检测目标错配。
第二处裂缝是只凭一个最高相关就定了它一个。相关系数高只证明“它和菌落总数同步上升得最好”,证明不了“它唯一”“它因果”“它特异”。霉变过程里多种挥发物都随时间齐涨(图 2-6 里棕榈酸甲酯、4-甲基-2-戊酮也明显上升),都会和同样随时间上升的菌落总数高相关——这种高相关很大程度是“共同被时间推着走”的假象。论文从头到尾没给出其它物质对菌落总数的相关系数(图 2-10 是 28 乘 28 的热图,字太小、数值重叠,根本读不出),读者无从判断 0.95 和第二名差多少;若第二名是 0.93,“最高”的区分度就很弱,“唯一”更谈不上。
第三处裂缝是菌落总数的口径前后打架。作者自己先声明菌落总数“不能直接用于判定霉变程度,仅作卫生污染参考”,转头又把它当成判定标志物好不好的唯一标尺——一个被自己说“不能判定霉变程度”的量,成了判定标志物的尺子。用菌落总数作霉变污染的代理在粮食领域有惯例基础,不能算方法错;问题在论文自己打自己的脸却没把逻辑补圆,读者会卡在这处自相矛盾上。
修改建议:
作者可在两条路径中选其一处理早期检测的方向性错配——
无论选哪条路径,还须同时做到——
定位:第 4 章 §4.3.4(印 57–58)、图 4-15(印 58)、§7.2 创新点(2)(印 116)
问题:创新点(2)写“突破了 QCM 气敏传感器无法特异性识别目标气体(选择性差)的局限性”,把“特异性识别”当成已经做到的成果来宣讲;但论文自己第 4 章的实测数据显示,传感器只能认出“含羟基的醇类”这一大类,并没有认出“1-辛烯-3-醇这一个分子”。这属于宣称口径夸大、话说大了,不是技术错误——技术路线本身是合理的。
证据:
为什么是问题:先说结论——传感器真正在认的是“羟基这个官能团(是不是醇)”,不是“1-辛烯-3-醇这个分子的形状”。一个真正“分子特异”的 MIP,对模板分子的响应应该显著高于所有其它分子(包括同类醇);而本传感器恰恰对两个非模板的同类醇响应更高,这正是“官能团级选择性”的典型特征,够不上“分子特异识别”。更关键的是,作者自己在第 4 章就把“特异识别”定义为“只对目标气体响应、避免交叉敏感”,按这个自设标准,对同类醇响应更高就是交叉敏感没避免、没达标。
把三章连起来看,矛盾就很清楚——第 4 章实测里,传感器对两个含量更低的同类醇响应反而更强,作者把原因归到羟基官能团上,也就是它认的是“是不是醇”;到了第 6 章,正因为单传感器分不清同类分子,才又上 12 维特征加机器学习做模式识别;可第 7 章创新点(2)却写“突破了无法特异识别的局限”。第 4 章只做到官能团级,第 6 章靠机器学习补,第 7 章却说已突破特异识别,三处对不上。这里必须为作者说句公道话:用“粗选择性传感器加多特征加机器学习”来做检测,本身是电子鼻和气敏阵列领域的标准合理做法(用机器学习正是对单传感器选择性不足的标准应对),方法没有错,不应批评它“为什么还要用机器学习”。问题只在创新点这句话——它把“官能团级选择性加机器学习模式识别”这套组合,说成了“传感器突破了无法特异识别的局限”,等于把整套路线的功劳单独算到传感器头上、还拔高了一个量级。另外,整个选择性论证只有一张雷达图、没有一个数值,“差异显著”全靠目测,而“同类醇响应反而更高”这条对宣称不利的事实却用文字明说了——形成“有利结论靠目测、不利事实文字带过、全程无数字”的不对称披露。
修改建议:
定位:第 5 章 §5.2.3(印 70)、图 5-9、§5.3.5(3)(印 78)、§4.3.2(印 53)、图 4-12(印 54)、§7.2 创新点(3)(印 116)
问题:这一条有两个相对独立的子问题。其一,论文反复强调“创制专用嗅觉检测装置”,但装置最核心的频率信号读取,完全由一台商用仪器完成,控制软件也只是把商用软件嵌进来,论文没有如实划清“哪些是买的、哪些是自研的”,宣称口径偏高。其二,第 4 章和第 5 章互相依赖、读起来顺序倒置,且第 5 章装置的核心气路图被放进了第 4 章。这两个子问题都不影响数据正确性,是规范性和可读性问题。
证据:
为什么是问题:先说第一个子问题——装置的“读数核心”是买来的。频率测量是嗅觉检测装置的命脉,而这个命脉是市售的 CHI400C 在做,软件只是把它的界面嵌进来,下位机采集卡只管气路不碰频率,整机其余部件(气源、流量控制器、电磁阀、继电器、检测室)也基本是市售选型。论文真正的原创成分,落在气路时序集成(5 种状态切换的设计)、上位机控制软件外壳、检测室的小幅改制上。这种“集成创新”本身可以成立、也有价值,但论文把它包装成“创制装置”、没有如实标出“频率测量靠商用、自研在集成与软件”这条边界,宣称口径就偏高了。
第二个子问题是章节顺序倒置。第 4 章讲传感器特性测试时,明文说“用第五章研发的装置”来测——可读者读到第 4 章时,第 5 章的装置还没出场,就已经被拿来用了;而且这台装置的核心气路图(图 4-12)被编进了第 4 章,第 5 章和第 6 章反过来回头引用它。这不是“传感器是装置的一个部件”那种正常的从属关系(正常只需要第 5 章用第 4 章的传感器,是单向的);这里是反向的——第 4 章的测试又用了还没介绍的第 5 章装置,装置的图还放在了第 4 章,读者读第 4 章测试时得跳到本章去找一张本该属于第 5 章的图,逻辑上断了一截。
修改建议:
通读全文,除上述实质问题外,还有若干校对、排版、公式与图表的规范问题。下列归为一条集中列出(其中前几项影响读图或照抄会误导,建议优先处理);建议作者结合本意见对全文做一次系统通校。
影响理解或照抄会误导的(建议优先改):
纯排版与校对级(建议一并改):
评审结论:修改后重新送审。
理由如下。这篇论文的工作量是实在的:材料合成与表征做得比较系统,传感器制备到整机集成、再到完整检测流程都打通了,分类与回归双模型也做了对比,作者的综合工程能力和动手能力是看得见的,§7.3 的展望也诚实地披露了泛化性局限。这些都是它的底子。
但本篇的问题集中在方法学和数据两个层面,且都压在全文的承重环节上,不是改改措辞能了结的——
这三条都需要作者补做实验或重做分析,且第 2 章的地基问题与第 6 章的链尾问题一头一尾、相互关联——地基的标志物因果性没坐实、链尾的高指标又是虚高的,论文“实现小麦霉变早期精准检测”的核心主张目前还立不住。意见 4(创新点夸大)、意见 5(装置含金量与编排)可通过改写措辞和调整结构修复,意见 6 为校对类。
综合判断:论文的工作基础足以支撑修改,但必须先把意见 1、2、3 这三条承重问题改到位——第 6 章按组划分重做并补基线、第 2 章正文数据查清改正、标志物与早期检测目标的错配理顺——修改后重新送审,由评审专家复核这三条是否落实,再决定是否进入答辩。
评审人签名: 日期:2026-05-23