陈文虎及其团队推出MMLU - Pro、MMMU等评测,为AI模型评估补漏洞

旧考卷失灵之后

每次前沿模型发布,AI圈都会盯着MMLU - Pro、MMMU、MMMU - Pro等“标准科目”成绩单,GPT、Claude等模型不断在这些基准上交卷。但有意思的是,几乎所有人关注分数,却少有人知道出题人是陈文虎。

陈文虎最先被更多人注意,是因为MMLU - Pro。MMLU曾是大语言模型能力评估常用基准评测,早期有用,但随着模型能力提升,它变得“不够考”,前沿模型分数接近满分,难以继续判断谁更强。2024年,陈文虎和团队推出MMLU - Pro,重新改造考卷,包含12032道题,覆盖14个领域,把选项从4个扩展到10个,加入更多偏推理问题,清理简单、有歧义或区分度不足的题目。论文结果显示,模型在MMLU - Pro上准确率相比原版MMLU下降16%到33%,成绩波动也下降,新卷子更难且更稳定,拉开了模型差距。

好用的基准评测

MMLU - Pro很快被行业采用,进入NeurIPS2024数据集与基准评测赛道,被EleutherAI的语言模型评测框架lm - evaluation - harness集成,很多模型发布开始报告其分数,HuggingFace排行榜也将其纳入评估体系。

MMMU则把陈文虎和TIGERLab推到多模态评测中心。多模态模型问题更复杂,要处理多种形式信息,需结合视觉、文本和学科知识推理。MMMU基准评测包含1.15万道多模态问题,来自大学考试等,覆盖六大领域,细分30个学科和183个子领域。发布时测试了14个开源多模态模型及GPT - 4V、GeminiUltra等闭源模型,即便最强闭源模型准确率也仅56%和59%,说明多模态模型在专业理解和推理上仍有提升空间。后来陈文虎团队推出MMMU - Pro,堵住模型绕过视觉信息的空间,不让模型“只看文字猜答案”。

“考卷”背后的人

陈文虎做MMLU - Pro和MMMU源于其研究方向,他对复杂信息理解、知识问答和推理感兴趣。他本科毕业于华中科技大学,后到德国亚琛工业大学攻读硕士,再到加州大学圣巴巴拉分校获博士学位,博士期间围绕复杂问答等方向研究。他参与过HybridQA等项目,对模型评估漏洞敏感,好的基准评测要预判模型“蒙对题”的漏洞并补好。

博士毕业后,陈文虎进入谷歌研究院,2021 - 2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。2022年秋季加入滑铁卢大学担任助理教授,同年入选CanadaCIFARAIChair,创办“老虎实验室(虎头帮)”,继续围绕基础模型等展开研究。虎头帮不仅做基准评测,还做模型和系统研究,如UniVideo、Vamba、MoCha等项目。自己做模型让他们更适合做评估,因为好的评估源于对模型能力边界的理解。如今,陈文虎进入Meta超级智能实验室,工作集中在多模态预训练数据和评估,服务于Meta基础模型。AI行业中,聚光灯常落在创业者等身上,但华人人才的参与不止这些显眼位置。

智能交通灯设计是现代城市交通管理中的重要环节,利用STM32单片机进行智能交通灯控制能够提高交通效率,减少交通事故。STM32是一款基于ARM Cortex-M内核的微控制器,具有高性能、低功耗的特点,广泛应用于各种嵌入式系统设计。本项目将介绍如何使用STM32单片机配合Proteus仿真软件来实现智能交通灯系统的设计。 我们需要了解STM32的基本结构和工作原理。STM32家族包含了多种型号,它们拥有不同的内存大小、外设接口和性能等级。在这个项目中,我们可能使用的是STM32F10x系列,它具备GPIO、定时器、串行通信接口等丰富的外设资源,适合交通灯控制的需求。 智能交通灯系统通常由红绿黄三色灯组成,通过特定的时序来控制各个方向的车辆和行人通行。在设计时,我们需要考虑以下几个关键知识点: 1. **硬件接口设计**:STM32通过GPIO口连接到交通灯的LED驱动电路,设置GPIO的工作模式(如推挽输出或开漏输出),并根据交通规则控制LED灯的亮灭。 2. **定时器配置**:利用STM32的定时器功能设定交通灯各阶段的持续时间。可以使用定时器的中断功能,在特定时间点切换交通灯状态。 3. **程序逻辑**:编写C语言程序实现交通灯的逻辑控制。这包括初始化GPIO和定时器,设置交通灯状态的切换逻辑,并处理中断服务函数。 4. **Proteus仿真**:Proteus是一款强大的电子电路仿真软件,可以模拟硬件电路运行和程序执行。在这里,我们将STM32单片机模型和交通灯模型添加到仿真环境中,运行程序并观察交通灯的正确运行。 5. **调试与优化**:在Proteus中,可以通过查看虚拟示波器或逻辑分析仪来检查信号波形,帮助定位程序中的错误。通过反复调试,优化交通灯的控制算法,确保其符合实际交通需求。 6. **全套资料**:压缩包内的资料可能包括源代码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值