浙大研究获 SIGMOD 2023 最佳论文;GPT-4 拿下最难数学推理数据集新 SOTA_新动态
机器之心 & ArXiv Weekly
(相关资料图)
参与:楚航、罗若天、梅洪源
本周论文包括 10% 成本定制专属类 GPT-4 多模态大模型;GPT-4 拿下最难数学推理数据集新 SOTA 等研究。
目录:
Transfer Visual Prompt Generator across LLMs
Progressive-Hint Prompting Improves Reasoning in Large Language Models
AutoML-GPT: Automatic Machine Learning with GPT
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
Unlimiformer: Long-Range Transformers with Unlimited Length Input
Detecting Logic Bugs of Join Optimizations in DBMS
REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths
论文 1:Transfer Visual Prompt Generator across LLMs
作者:Ao Zhang 、 Hao Fei 等
论文地址:https://arxiv.org/pdf/2305.01278.pdf
摘要:本文提出的 VPGTrans 方法,可以快速 ( 少于 10% 训练时间 ) 将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。比如,相比于从头训练视觉模块,本文可以将 BLIP-2 FlanT5-XXL 的训练开销从 19000 + 人民币缩减到不到 1000 元:
通过 VPGTrans 框架可以根据需求为各种新的大语言模型灵活添加视觉模块。比如在 LLaMA-7B 和 Vicuna-7B 基础上制作了 VL-LLaMA 和 VL-Vicuna。
开源多模态对话模型:本文开源了 VL-Vicuna,可实现高质量的多模态对话:
推荐:10% 成本定制专属类 GPT-4 多模态大模型。
论文 2:Progressive-Hint Prompting Improves Reasoning in Large Language Models
作者:Chuanyang Zheng、Zhengying Liu 等
论文地址:https://arxiv.org/abs/2304.09797
摘要:近期,华为联和港中文发表论文《Progressive-Hint Prompting Improves Reasoning in Large Language Models》,提出 Progressive-Hint Prompting ( PHP ) ,用来模拟人类做题过程。在 PHP 框架下,Large Language Model ( LLM ) 能够利用前几次生成的推理答案作为之后推理的提示,逐步靠近最终的正确答案。要使用 PHP,只需要满足两个要求 : 1 ) 问题能够和推理答案进行合并,形成新的问题;2 ) 模型可以处理这个新的问题,给出新的推理答案。
结果表明,GP-T-4+PHP 在多个数据集上取得了 SOTA 结果,包括 SVAMP ( 91.9% ) , AQuA ( 79.9% ) , GSM8K ( 95.5% ) 以及 MATH ( 53.9% ) 。该方法大幅超过 GPT-4+CoT。比如,在现在最难的数学推理数据集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 数据集的 Nember Theory ( 数论 ) 子集提升 6.1%, 将 MATH 整体提升到 53.9%,达到 SOTA。
推荐:GPT-4 拿下最难数学推理数据集新 SOTA。
论文 3:AutoML-GPT: Automatic Machine Learning with GPT
作者:Shujian Zhang、Chengyue Gong 等
论文地址:https://papers.labml.ai/paper/35151be0eb2011edb95839eec3084ddd
摘要:近期,来自德克萨斯州大学奥斯汀分校的研究者提出一种新思路 —— 开发任务导向型 prompt,利用 LLM 实现训练 pipeline 的自动化,并基于此思路推出新型系统 AutoML-GPT。
AutoML-GPT 使用 GPT 作为各种 AI 模型之间的桥梁,并用优化过的超参数来动态训练模型。AutoML-GPT 动态地接收来自 Model Card [ Mitchell et al., 2019 ] 和 Data Card [ Gebru et al., 2021 ] 的用户请求,并组成相应的 prompt 段落。最后,AutoML-GPT 借助该 prompt 段落自动进行多项实验,包括处理数据、构建模型架构、调整超参数和预测训练日志。
AutoML-GPT 通过最大限度地利用其强大的 NLP 能力和现有的人工智能模型,解决了各种测试和数据集中复杂的 AI 任务。大量实验和消融研究表明,AutoML-GPT 对许多人工智能任务(包括 CV 任务、NLP 任务)是通用的、有效的。
推荐:通用系统 AutoML-GPT 来了。
论文 4:MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
作者:Lili Yu 、 Daniel Simig 等
论文地址:https://arxiv.org/pdf/2305.07185.pdf
摘要:Meta AI 发表的一篇新论文,提出了一种名为「 MEGABYTE」的多尺度解码器架构,可以对超过一百万字节的序列进行端到端可微建模。
重要的是,该论文展现出了抛弃 tokenization 的可行性,被 Karpathy 评价为「很有前途(Promising)」。
该方法将字节序列分割成固定大小的 patch,和 token 类似。
MEGABYTE 模型由三部分组成:
1. patch 嵌入器,它通过无损地连接每个字节的嵌入来简单地编码 patch;
2. 全局模块 —— 带有输入和输出 patch 表征的大型自回归 transformer;
3. 局部模块 —— 一个小型自回归模型,可预测 patch 中的字节。
至关重要的是,该研究发现对许多任务来说,大多数字节都相对容易预测(例如,完成给定前几个字符的单词),这意味着没有必要对每个字节都使用大型神经网络,而是可以使用小得多的模型进行 intra-patch 建模。
推荐:一定要「分词」吗?Andrej Karpathy:是时候抛弃这个历史包袱了。
论文 5:Unlimiformer: Long-Range Transformers with Unlimited Length Input
作者:Amanda Bertsch 、 Uri Alon 等
论文地址:https://arxiv.org/pdf/2305.01625v1.pdf
摘要:来自卡内基梅隆大学的研究者引入了 Unlimiformer。这是一种基于检索的方法,这种方法增强了预训练的语言模型,以在测试时接受无限长度的输入。
Unlimiformer 可以被注入到任何现有的编码器 - 解码器 transformer 中,能够处理长度不限的输入。给定一个长的输入序列,Unlimiformer 可以在所有输入 token 的隐藏状态上构建一个数据存储。然后,解码器的标准交叉注意力机制能够查询数据存储,并关注前 k 个输入 token。数据存储可以存储在 GPU 或 CPU 内存中,能够次线性查询。
Unlimiformer 可以直接应用于经过训练的模型,并且可以在没有任何进一步训练的情况下改进现有的 checkpoint。Unlimiformer 经过微调后,性能会得到进一步提高。本文证明,Unlimiformer 可以应用于多个基础模型,如 BART(Lewis et al.,2020a)或 PRIMERA(Xiao et al.,2022),且无需添加权重和重新训练。在各种长程 seq2seq 数据集中,Unlimiformer 不仅在这些数据集上比 Longformer(Beltagy et al.,2020b)、SLED(Ivgi et al.,2022)和 Memorizing transformers(Wu et al.,2021)等强长程 Transformer 表现更好,而且本文还发现 Unlimiform 可以应用于 Longformer 编码器模型之上,以进行进一步改进。
推荐:Unlimiformer 把上下文长度拉到无限长。
论文 6:Detecting Logic Bugs of Join Optimizations in DBMS
作者机构:浙江大学
摘要:浙大的研究者提出了一种名为 Transformed Query Synthesis(TQS)的方法。在检测 DBMS 中连接优化的逻辑漏洞任务上,TQS 是一种普适且成本高效的全新工具。
为了展现该方法的通用性和有效性,研究者在四个常用 DBMS 上对 TQS 进行了评估:MySQL、MariaDB、TiDB 和 PolarDB。运行了 24 小时后,TQS 成功找到了 115 个漏洞,包括 MySQL 中 31 个、MariaDB 中 30 个、TiDB 中 31 个、PolarDB 中 23 个。通过分析根本原因,可归纳出这些漏洞的类型,其中 MySQL 中的漏洞有 7 种、MariaDB 有 5 种、TiDB 有 5 种、PolarDB 有 3 种。研究者已经将发现的漏洞提交给相应的社区并且收到了积极的反馈。
图 2 给出了 TQS 的架构概况。给定一个基准数据集和目标 DBMS,TQS 通过基于数据集生成查询来搜索 DBMS 可能存在的逻辑漏洞。TQS 有两大关键组件:数据引导的模式和查询生成(DSG)和知识引导的查询空间探索(KQE):
推荐:浙大研究获 SIGMOD 2023 最佳论文。
论文 7:REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths
作者:Xu Chen 、 Jingsen Zhang 等
论文地址:https://arxiv.org/pdf/2303.00168.pdf
摘要:来自中国人民大学和华为的研究者联合构建了一个新的可解释推荐数据集 —— REASONER ( Real Users Labeled Multi-aspect Explanations for Explainable Recommendation ) 。
该数据集构建于视频推荐场景,包含了多种推荐解释目的的真值,例如,增强推荐说服力、解释信息量以及用户满意度等。可广泛应用于可解释推荐、推荐系统纠偏以及基于心理学的推荐等领域。同时,该研究也开发了一个可解释推荐工具包,包含了十个知名的可解释推荐模型方便大家使用。
REASONER 数据集具有以下几个亮点:
多模态的候选解释:用户可以根据自身偏好为每个推荐的视频选择文本解释或视觉解释。
多方面的解释真值:从推荐说服力、解释信息量和用户满意度三个方面提供推荐解释真值。
真实用户标注:数据集中的解释真值的标注者正是产生交互记录的人。
丰富的用户特征:该研究收集了参与用户的多方面的特征信息(已脱敏)。
推荐:多角度、真实户标注,人大 & 华为推出可解释推荐数据集 REASONER。
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
标签:
相关阅读
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
推荐阅读
-
浙大研究获 SIGMOD 2023 最佳论文;GPT-4 拿
机器之心&ArXivWeekly参与:楚航、罗若天、梅洪源本周论文包括10%成本定制专属类GPT-4多模态大模型;GPT-4更多
2023-05-21 16:16:41
-
山东五莲县:绿色颜值转为金色价值 天天简讯
眼下,走进山东省日照市五莲县“奇秀不减雁荡”的五莲山脚下胡林村,老树矗立村口、枝叶繁茂,向上延伸出碧更多
2023-05-21 15:20:41
-
全省水利建立“政银企”协调机制为水利招商引资赋
今年,我省将重点推进白龙江引水、黄河甘肃段河道防洪治理工程、引大延伸增效工程等重大水利项目,总投资规更多
2023-05-21 14:32:07
-
全球资讯:第七届世界智能大会签约98个重点项目
新华社天津5月20日电(记者王宁、郭方达)记者从天津市工信局了解到,第七届世界智能大会期间,共有98个重更多
2023-05-21 13:16:45
-
马龙:小迈克尔-波特本场很突出 这是他潜能的缩影
马龙:小迈克尔-波特本场很突出这是他潜能的缩影,湖人,nba,丹佛掘金队,乒乓球比赛,迈克尔-波特,奥林匹克运更多
2023-05-21 12:02:17
-
关于海的诗句大全_关于海的诗句
1、总有一天,我会乘风破浪,扬起云帆,横渡大海。——李白《行路难》2、毕竟,世界只是一个小小的地方。—更多
2023-05-21 10:58:30
-
全国春播粮食已过八成_环球视讯
在江苏连云港东海县平明镇的水稻工厂化育秧中心,记者看到,喷水、覆土、码盘,全程实现机械化智能化育秧更多
2023-05-21 09:59:34
-
脾脏增大的标准_脾脏增大 世界快资讯
今天小编肥嘟来为大家解答以上的问题。脾脏增大的标准,脾脏增大相信很多小伙伴还不知道,现在让我们一起来更多
2023-05-21 09:17:16
时尚热图
热门标签
精彩放送
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
05-21
-
今日必看
-
精彩话题
-
最新见闻
- “最美候鸟”栗喉蜂虎厦门筑巢_当前独家
- 农业农村部:中国农村卫生厕所普及率超过73% 快报
- “倒闭风波”不足半月 Q房网被控股股东甩卖 卖出价1861万元不足买入价1/200|天天视点
- 广东成国内创投集聚地 管理基金规模居全国前列
- 探世界智能大会:未来科技感包裹无限创意扑面而来
- 医保电子凭证有什么用(医保电子凭证有什么用)
- 流沙河理想永存_流沙河理想 世界速看料
- 当前快报:psd是什么软件_psd是什么
- 2925大写 2925_时讯
- 大方县气象台发布大雾黄色预警信号【Ⅲ/较重】【2023-05-20】-热点聚焦
- 双汇发展:猪肉深加工仍有较大发展空间 王中王目前销量稳定 天天微资讯
- 【全球速看料】中泰证券回应自营部门解散传闻:不实!对自营条线下证券投资部分人员进行了调整
- 【短讯】OpenAI推70+ChatGPT插件 智能助理受益股梳理
- 俯卧撑、搬物品、翻越障碍......这场机器人大赛“玩”出新花样
- 实时焦点:国产新车品鉴:现代开发全新空调系统 全面改善车内空气质量
- 焦点热议:【短讯】复旦微电:关注AI应用动态及客户需求 Q1加大FPGA备货致存货飙升54%|直击业绩会
- 博杰股份:目前在AR/VR上实现的收入来源有META、A客户等知名公司
- 浩云科技低代码平台获首批信创低代码平台检验证书
- 今日热讯:天华新能:今年可以实现电池级氢氧化锂产品13.5万吨/年 电池级碳酸锂产品3万吨/年
- 太奇葩!离职行长突遭银行“讨薪”71万 法院判了
- 今日视点:中超-崔康熙首秀贾德松乌龙 津门虎3-3泰山
- 今日要闻!AI如何加速新冠疫苗研发?多篇前沿论文揭示瓶颈与挑战
- 上海人才资源总量已达675万人
- 未来健康产业图景如何?上海青年人才共议前沿技术
- 【短讯】独家求证:中泰证券免职四位自营负责人 并非解散自营部门_世界新视野
- 当前聚焦:南宁蜈蚣的天敌?
- 贝斯特:接受德邦证券调研|今日快看
- 宣传应急救援知识 招商蛇口为东莞捐出13台AED设备
- 听中外名曲、玩篝火派对,上海湾区·花开海上音乐节在金山举行
- 见崎鸣和小鸟游六花图片哔哩哔哩_见崎鸣和小鸟游六花
- 追着花儿看新疆|新疆伊犁:花经济成致富新产业 赋能“香”村振兴 天天关注
- 【天天速看料】2023年全民健身线上运动会开赛“满月” 230万人参赛
- 追着花儿看新疆|幸福像花儿一样——新疆“花经济”带动群众致富-天天观热点
- 世界视点!创业慧康与深信服正式达成战略合作 携手共建智慧医疗
- 【天天新要闻】湖南米豆腐能煎着吃吗 煎米豆腐做法
- 【短讯】精进电动Q1超六成收入来自乘用车领域 美国“三合一”项目预计今年8月起量|直击业绩会
- 每日热讯!探访新疆伊宁纺织产业园:车间整洁 平衡车、电动车来回穿梭
- “i茅台”注册用户超4000万 正成为企业变革力量
- 最新快讯!国产玻纤“隐形巨头”成长记
- 陈吉宁龚正与科技工作者和青少年代表共同见证 2023年上海科技节开幕|今头条
- 河北雄安新区积分落户申报5月20日启动
- 上海人才资源总量已达675万人 累计发放外国人工作许可证39.4万份
- 焦点快报!美国小规模研究首次表明新型减肥药或可降低心脏病风险?专家意见不同
- 种植技术提高+味美价优 国产樱桃市场占有率不断提高-世界热讯
- 种业“芯片”研发加速 云南花卉品种持续“上新”-天天播报
- 博雅生物:预计2023年采浆量保持稳定增长
- 乘着直升机飞越昆仑 鸟瞰位于新疆的壮美山河
- 【短讯】九州证券总裁邓晖:财富管理是“貌似红海的蓝海”,转型的解锁密码是真正以客户需求为中心|全球最新
- 小满节气将至 夏收夏种农事忙
- 小王庄镇网格员为青少年成长保驾护航
- 天天动态:百家科幻企业落户北京石景山 京西科幻之城活力初现
- 节日来临鲜切花市场迎销售高峰 销售价格全线上涨
- 环球今日报丨江苏泰州:“你点我办、你评我改”解企业“烦心事”
- 江苏靖江缘何追求“留白”式绿色发展?
- 简讯:【短讯】科创辽宁周报:东港、绥中等四地入选国家第二批创新型县(市) 华晨宝马投资100亿建设BMW第六代动力电池项目
- 董明珠手机梦碎?格力电器否认手机团队解散:研发持续进行中_每日快讯
- 全球热资讯!华夏标普500ETF发起式联接(QDII)限购
- 章丘农商银行白云湖支行金融服务队进驻白云湖街道李码村
- 当前消息!广汽集团党委书记、董事长曾庆洪:政策支持、科技赋能、产业协同,让大湾区汽车产业的发展前景不可限量
- 顺丰控股:4月份速运业务量和营收同比增速均超20%
- 科恒股份:公司5月份正极材料订单相较前期有较大幅度增长_每日速看
- 拓斯达:公司未向特斯拉提供产品及服务 天天快消息
- 当前热讯:厚植创新创业沃土 上海日均新设立科技企业294家
- 天天热消息:上海在科技、产业领域将如何支持青年人才?官方这样解读
- 福厦高铁进入联调联试阶段,预计9月底具备开通运营条件
- 环球播报:鹏扬中债-30年期国债ETF成立
- 深圳市三合星智能科技有限公司(三合星是什么)
- 铸铁的特性_男生朋友送什么生日礼物好呢
- 【短讯】价格竞争加剧致去年毛利率下滑 风范股份:看好新能源转型方向|直击业绩会
- 世界速递!突发!万达集团紧急声明!1200亿巨头宣布:大裁员
- 【短讯】智能电网数据采集重要基础设备!智能电表龙头单周涨60%
- 重庆市藻渡水库主体工程开工,总投资超百亿|今日热门
- 粤科金融集团签约8个项目 合计金额近160亿元
- 当前要闻:切尔西今夏进行人员大换血 国米门将是主要引援目标
- 全面“回血”!超1000只创新高
- 全球今日报丨6个国家区域应急救援中心全面进入工程建设阶段
- 天天热推荐:国家矿山安监局:近年来矿山水害事故呈总体下降趋势
- 【短讯】AI+电力火了!电力数字化智能化转型获利好 受益股梳理
- 世界球精选!“520”迎上市十二周年 好想你能甜蜜起来吗
- 沪宁沿江高速铁路今日全线铺轨完成_环球时讯
- 【高端访谈】科大讯飞刘庆峰:抢抓通用人工智能的历史新机遇 焦点热讯
- 【热闻】广东省政府副秘书长许典辉:要合力提升风投创投对实体经济高质量发展的支撑作用
- 【全球速看料】百亿项目签约!粤科金融撬动资金、引领资本、整合资源 打造“科技+金融+产业”生态圈
- 乘客赖网约车上超28小时,警方通报:已行拘
- 第五届西洽会 | 智慧加油、交能融合……重庆高速推进“智慧高速”建设
- 今日精选:95后成“为爱消费”主力,原来他们愿意为这些“520”商品买单
- 中国星辰|星辰大海标注北斗精度
- 焦点日报:荒野大镖客2生存大师挑战流程分享 荒野大镖客2生存大师5是什么意思
- 【短讯】AI大模型“无米下锅”?合成数据多重优势凸显 硅谷巨头正加速布局 世界热推荐
- 更名“北京人力” 人服龙头北京外企登陆沪主板
- 呷哺集团:计划2023年新开门店超230家 截至5月20已新开95家-当前速讯
- 【世界热闻】晶圆巨头华虹宏力过会 拟募180亿成科创板第三
- 200余位爱心人士响应“热血邀约” 在充满爱的日子点亮生命之光 天天滚动
- 年内通车!巫镇高速全线进入最后冲刺阶段
- 广东省地方金融监管局倪全宏:引导更多社会资本投向科技自立自强等重点领域-今日最新
- 刚刚,王健林万达集团紧急声明!
- 2023年初中志愿填报怎么填 填报中考志愿的流程是怎样的
- 没有拆封的香烟保质期 香烟的保质期一般是多久|动态焦点
- 每日热讯!新巨丰收购纷美包装股权交易草案公布,收购价超8亿元
- 华东医药与阿里健康达成合作 首款国产利拉鲁肽线上首发 环球时讯