GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破782%难题干掉幻

时间:2023-06-02 浏览次数:663

　　【新智元导读】ChatGPT为人诟病的「数学智障」问题，有望彻底攻克!OpenAI最新研究发现，利用「过程监督」可以大幅提升GPT模型的数学能力，干掉它们的幻觉。

　　OpenAI在努力——为了提升GPT-4的数学推理能力，OpenAI团队用「过程监督」（PRM）训练模型。

　　论文中，研究人员训练模型通过奖励每一个正确的推理步骤，即「过程监督」，而不仅仅是奖励正确的最终结果（结果监督），在数学问题解决方面取得最新SOTA。

　　最新研究当然少不了Sam Altman的转发，「我们的Mathgen团队在过程监督上取得了非常令人振奋的结果，这是对齐的积极信号。」

　　在实践中，「过程监督」因为需要人工反馈，对于大模型和各种任务来说成本都极其高昂。因此，这项工作意义重大，可以说能够确定OpenAI未来的研究方向。

　　「过程监督」奖励模型不仅在整体上表现更好，而且随着考虑每个问题的更多解决方案，性能差距也在扩大。

　　虽然GPT-4通常不能解决这个问题，只有0.1%的解决方案尝试实现正确答案，但奖励模型正确地识别出这个解决方案是有效的。

　　在步骤5中使用Sophie-Germain恒等式是一个重要的步骤。可见，这一步骤很有洞察力。

　　这是该模型可能产生「幻觉」的常见地方，它会声称某个特定的猜测是成功的。在这种情况下，奖励模型验证每一步，并确定思维链是正确的。

　　在步骤4中，GPT-4错误地声称「序列每12项重复一次」，但实际上每10项重复一次。这种计数错误偶尔会欺骗奖励模型。

　　步骤13中，GPT-4试图通过合并类似的项来简化方程。它正确地将线性项移动并组合到左边，但错误地保持右边不变。奖励模型被这个错误所欺骗。

　　GPT-4尝试进行长除法，但在步骤16中，它忘记在小数的重复部分包括前面的零。奖励模型被这个错误所欺骗。

　　然而，这个计数低估了2倍，因为Bob有2个选择，即决定把哪个球给Alice。奖励模型被这个错误所欺骗。

　　虽然大语言模型在复杂推理能力方面有了很大的提升，但即便是最先进的模型仍然会产生逻辑错误，或胡说八道，也就是人们常说的「幻觉」。

　　比如最近，一位美国律师在纽约联邦法院的文件中就引用了ChatGPT捏造出的案件，可能面临制裁。

　　OpenAI的研究者在报告中提到:“在需要多步骤推理的领域，这些幻觉尤其成问题，因为，一个简单的逻辑错误，就足以对整个解决方案造成极大的破坏。”

　　「结果监督」，顾名思义，就是根据最终结果给大模型反馈，而「过程监督」则可以针对思维链中的每个步骤提供反馈。

　　在过程监督中，会奖励大模型正确的推理步骤，而不仅仅是奖励它们正确的最终结论。这个过程，会鼓励模型遵循更多类似人类的思维方法链，因而也就更可能造就更好的可解释AI。

　　OpenAI的研究者表示，虽然过程监督并不是OpenAI发明的，但OpenAI正在努力推动它向前发展。

　　最新研究中， OpenAI把「结果监督」或「过程监督」两种方法都试了一遍。并使用MATH数据集作为测试平台，并对这两种方法进行了详细比较。

　　对于数学任务，「过程监督」对大模型和小模型都产生了明显更好的结果，这意味着模型通常是正确的，并且还表现出了更像人类的思维过程。

　　· 更有可能产生可解释的推理，因为「过程监督」鼓励模型遵循人类认可的过程。相比之下，结果监督可能会奖励一个不一致的过程，而且通常更难审查。

　　另外值得一提的是，在某些情况下，让AI系统更安全的方法可能会导致性能下降。这种成本被称为「对齐税」（alignment tax）。

　　OpenAI研究人员开放了这次人类反馈数据集PRM，包含800，000个步骤级正确标注:12K数学问题生成的75K解决方案

　　如下是一个标注的示例。OpenAI正在发布原始标注，以及在项目第1阶段和第2阶段给标注者的指示。

　　对于具有挑战性的分步问题，在每一步都给予奖励，而不是在最后给予单一的奖励。基本上，密集奖励信号稀疏奖励信号。过程奖励模型（PRM）能够比结果奖励模型(ORM)更好为困难的MATH基准挑选解决方案。下一步显然是用PRM对GPT-4进行微调，而本文还没有这样做。需要注意的是，PRM需要更多的人类标注。OpenAI发布了人类反馈数据集:在12K数学问题的75K解决方案中的800K步骤级标注。

　　ChatGPT在数学方面超级弱。今天我试图解决一个四年级数学书上的数学问题。ChatGPT给了错误答案。我把我的答案和ChatGPT的答案，在perplexity AI、谷歌的答案，以及四年级的老师进行了核对。每个地方都可以确认，chatgpt的答案是错误的。

　　一键部署AI绘画环境，单颗GPU限时4元/天起，尽情探索AI世界！专业技术7*24小时在线服务,腾讯云为企业和个人提供快捷,安全,稳定的云服务!

　　由+ChatGPT+掀起的这场+AI+革命，令人们感慨神奇的同时，也不禁发出疑问:AI+究竟是怎么做到这一切的?此前，即便是专业的数据科学家，都难以解释大模型运作的背后。OpenAI+似乎做到了——本周二，OpenAI+发布了其最新研究:让+GPT-4去试着解释+GPT-2的行为。”也有人担心+AI+进化的未来:“再搞下去，AI+真的要觉醒了。

　　当地时间周三，谷歌在谷歌I/O大会上发布了最新的人工智能语言模型PaLM+2，与OpenAI旗下的新一代大型语言模型GPT-4等系统展开竞争。2022年4月，谷歌首次发布了PaLM语言模型。在谷歌I/O大会上，谷歌正在证明，它的人工智能工作已经准备好进入黄金时段不仅仅是实验性服务。

　　AI目前的发展速度前所未有，同时使用方式和场景十分广泛，甚至超乎想象。3月14日，人工智能公司OpenAI发布了大语言模型的最新版本GPT-4。AI不仅有望改变人们搜索和创作内容的方式能够改善日常生活。

　　最近什么GitHub项目最火?GPT4FREE绝对是其中之一。免费使用GPT-4的API，就问谁!不!心!动!这不，上线k⭐️不说分分钟被正主OpenAI找上门，要求麻溜儿下架，否则就起诉。不过另一方面，这位作者已经开始往网站上放广告了。

　　开源语言模型的进步是无可争议的。但它们真的能与来自OpenAI、谷歌和其他公司的训练有素的语言模型竞争吗?诸如之前所报道的，使用AlpacaFormula训练的开源语言模型几乎不需要怎么训练以及很低的成本就能达到了类似于ChatGPT的水平。OpenAI研究员约翰舒尔曼最近也批评使用ChatGPT数据微调开源基础语言模型，称如果微调数据集包含原始模型中不存在的知识，它们可能会产生更多�

　　二十世纪初，微软曾发起过一场“浏览器战争”，用+IE4.0+++成功打赢了浏览器市场份额超过90%+以上的网景浏览器。微软用的就是“将+IE+放在+Windows98”这样的“禁忌武器”因此遭到了日后的反垄断起诉。AI+将会重新定义开发者构建的内容和软件的构建方式。

　　根据The+Information的一份新报告，OpenAI公司去年亏损5.4亿美元，是前一年的两倍，其中一部分资金用于从谷歌挖走关键工程师。知情人士称，自几周前推出付费版本ChatGPT+Plus以来，有望为OpenAI+每年带来“数亿美元”的收入。到2024年，OpenAI+预计将产生10亿美元的收入。

　　科大讯飞表示，根据系统、科学的评测体系结果，讯飞星火认知大模型数学能力方面结果优于ChatGPT，针对大模型普遍存在的问题，星火大模型有明确的升级迭代里程碑计划，6月9日，星火大模型的数学能力还会再上一个新的台阶。科大讯飞还表示，为更好地助力反诈工作，科大讯飞成立“反诈AI研究所”，在助力公安机关打击防范电信网络诈骗犯罪工作中，依托智能语音等人工智能技术应用，构建“打防宣”三位一体的反诈新格局。6月9日，讯飞星火认知大模型将突破开放式问答，并升级多轮对线日将升级代码能力，使得开发者和合作伙伴可以更加高效方便地使用、10月24日将通过科学、系统的评测方法，在通用认知大模型能力上能够实现对标ChatGPT，并在中文上超越，在英文上达到相当水平。

　　今日举办的讯飞星火认知大模型成果发布会上，科大讯飞宣布推出讯飞星火认知大模型”，并在现场进行了实机演示。星火认知大模型具备以下能力：多风格多任务长文本生成、多层次跨语种语言理解，泛领域开放式知识问答，情景式思维链逻辑推理，多题型可解析数学能力，多功能多语言代码能力。此外还具备多层次跨语种的理解能力，在多语言理解和纠错能力上已达业界领先水平。

　　核心频率不同，CPU型号不同天玑9200+和天玑 9000 都是联发科的5G旗舰级芯片，天玑9200+和天玑9000都是采用台积电4nm工艺制程。天玑9200+的CPU最高主频为3.3GHz，而天玑 9000 的CPU最高主频为3.2GHz。两款芯片都支持双模5G、WiFi 6E和蓝牙5. 2 等技术。

　　天玑9200+主频是3.0GHz，与骁龙 8Gen 2 相同，跑分要比骁龙 8Gen 2高一点点天玑 9200+ 处理器与天玑 9200 同架构，但所有核心频率增加，主频来到了 3.0GHz，与骁龙 8Gen 2 相同。跑分数据，天玑 9200+ 在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分。作为对比，骁龙 8Gen 2 的单核跑分成绩在大约 2000，多核成绩大约 5400。天玑9200+的安兔兔跑分大约为 136 万分，骁龙8Gen2 安兔兔跑分大约是128万分。

　　在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分联发科已经正式官宣，天玑9200+将于 5 月 10 日发布，这款处理器的 Geekbench v6 跑分已经出现。天玑 9200+ 处理器与天玑 9200 同架构，但所有核心频率增加，主频来到了 3.0GHz，与骁龙 8Gen 2 相同。根据爆料的跑分数据，天玑9200+在 Geekbench v6 平台单核得分 2121 分，多核得分 5655 分。作为对比，骁龙 8Gen 2 的单核跑分成绩在大约 2000，多核成绩大约 5400。

　　7天以上小米手环 8 搭载蓝牙 5.1，内置直流 3.87V 聚合物锂离子电池，型号为 M2239B1。上一代的小米手环 7 续航大约有9-15天左右。小米手环 7 内置180mAh 电池。预计小米手环8的续航会比小米手环7续航略微提升一点。

　　2K+ 分辨率魅族 20 Pro 采用6.81英寸直屏，2K+ 分辨率、100% P3 广色域、120Hz LTPO 高刷、最高 1200 nit 全屏亮度、最低 2 nit 全屏亮度，同时支持防蓝光、DC 调光等功能一应俱全；魅族 20 Pro采用旗舰级性能配置，包括顶级处理器第二代骁龙 8、12GB 起步的 LPPDR5X 大内存、至高 512GB UFS4.0 极速闪存以及 36424 平方毫米的立体散热堆迭。

　　第二代骁龙 8，LPPDR5X+UFS4.0，2K三星E6 材质Super AMOLED屏幕魅族 20 Pro，内置第二代骁龙 8，LPPDR5X+UFS4.0，搭载了2K三星E6 材质Super AMOLED屏幕，屏幕尺寸6. 81 英寸，支持120Hz自适应屏幕刷新率和1500Hz瞬时触控采样率，峰值亮度可达1800nit，屏幕还通过了SGS抗蓝光、抗频闪护眼认证；破晓灰、曙光银、朝阳金三种配色，整机厚7. 8 毫米，重 209 克；镜头模组由 5000 万像素人像镜头、 5000 万像素广角镜头、 5000 万像素超广角镜头组成，支持全像素对焦技术搭配dTOF辅助对焦，官方称将使对焦速度提升33%。魅族20 系列的主摄均支持SMA防抖，最高8K视频录制和夜景录像功能；5000mAh电池配80W快充，支持50W无线GB三种存储组合，售价 3999 起。

　　后置三摄，主摄 5000万像素，屏幕分辨率2496*2224华为Mate X3有「羽砂玻璃版:羽砂白、羽砂黑、羽砂紫」、「素皮版:晨曦金、青山黛」五款配色可选;覆盖昆仑玻璃;超轻薄折迭四曲设计，机身重量仅239g，厚度仅5.3mm， IPX8级抗水。屏幕拥有2496*2224超高分辨率和426ppi 超高像素密度。同样支持最高120Hz 自适应刷新率以及1440Hz PWM 调光。影像方面:搭载5000万像素超感知主摄，1300万像素超广角镜头，1200万像素潜望式长焦镜头。并配备10通道多谱传感器和激光对焦传感器，支持100倍变焦和5倍光学变焦。续航方面:配备4800mAh 大电池，支持50W 无线W 有线W 无线反向快充。性能方面:与华为 P60系列一样搭载了骁龙8+ 处理器，配备了超冷跨轴石墨烯散热系统，导热面积提升了20%。价格:华为Mate X3:256GB:12999、512GB:13999;华为 Mate X3典藏版:1TB:15999

　　6. 67 英寸的OLED屏幕， 4800 万像素长焦镜头华为P60 系列在背部采用了矩阵型模组，官方称之为“凝光设计”，引入了“凝光贝母”工艺；华为P60 全系搭载了6. 67 英寸的OLED屏幕，拥有2700* 1220 刷新率，显示效果十分细腻，支持10. 7 亿色、1440Hz PWM调光。同时支持全局色彩管理，支持莱茵专业色准双重认证；屏幕还支持LTPO动态高刷新率，支持1~120Hz自适应刷新率，还配备了昆仑玻璃面板，IP68 防尘抗水；相机方面，华为P60 Pro则进一步升级长焦镜头，配备了 4800 万像素RYYB的超聚光夜视长焦镜头，支持3. 5 倍光学变焦、OIS，拥有F2. 1 超大光圈；支持双向北斗卫星通信；5100 毫安时大电池+88W快充；首发搭载了全新的鸿蒙3.1，新增了AOD息屏显示功能。

　　6.67英寸的OLED屏幕，支持1~120Hz的LTPO刷新率华为P60 系列的屏幕搭载了骁龙8+ 4G处理器，6. 67 英寸的OLED屏幕，支持1~120Hz的LTPO刷新率，支持1440Hz PWM调光，拥有10. 7 亿色、全局P3 色域、HDR-P3HDR Vivid显示效果；覆盖四曲昆仑玻璃，支持IP68 防水，是全球首款德国莱茵专业色准双重认证的手机；相机方面，华为P60 支持F1.4-4. 0 十档可变光圈，搭载大光圈高透光镜群和RYYB超感光传感器，支持了华为XD Fusion Pro质感引擎；支持双向北斗卫星消息；首发搭载鸿蒙3.1，支持AOD息屏显示；价格，华为P60 的128GB版 4488 元，256GB版本是 4988 元，512GB版本是 5988 元。

　　天玑9000芯片，LPDDR5+UFS3.1，11.61英寸LCD屏幕，支持144Hz刷新率OPPO Pad2主要配置包括:11.61英寸7:5比例LCD显示屏，拥有2800×2200分辨率和500尼特亮度，支持144Hz五档刷新率智能调节，2048级亮度自适应智能调光并支持手写笔。OPPO Pad2基于联发科技天玑9000，辅以LPDDR5内存和UFS3.1存储，内置9510毫安时电池、67W有线万像素前置摄像头和蓝牙5.3。软件方面，ColorOS13.1支持5G通信共享。可以自动共享手机的5G通信，从而直接上网、接打电话、同步手机验证码、拍照流转和应用接力。

　　5G双待双通（DSDS）、WiFi 6/6E、蓝牙5.3等骁龙7+ Gen2 采用了骁龙X62 5G调制解调器，在全球范围内支持多种频段和模式的5G网络连接。它还是首款在骁龙 7 系中实现了5G双待双通（DSDS）功能，在两张SIM卡都插入时可以同时使用两个不同运营商或不同网络制式（例如SA和NSA）的5G网络服务。除此之外，它还支持WiFi 6/6E和蓝牙5. 3 等无线技术。

上一篇：中国南海点一把火却意外烧出5000亿吨宝贝26国看后红了眼下一篇：新时代与新思想