英文训练AI大模型比中文更便宜,为什么会这样?
如今国内市场的“百模大战”正如火如荼,无论是BAT这样的传统豪强,还是美团、字节跳动这样的新兴巨头,乃至科大讯飞等传统AI厂商都已入局。但提到AI大模型,似乎大家还是认为ChatGPT、Bing Chat、Bard等海外厂商的相关产品往往更加好用。
(资料图)
事实上,这并非错觉。近期牛津大学进行的一项研究就显示,用户所使用的语言对于大型语言模型(LLM)的训练成本有着密切的联系。
根据这一研究结果显示,按照OpenAI采用的服务器成本衡量和计费方式,让一个LLM处理一句缅甸掸语的句子需要198个词元(tokens),但同样的句子用英语写则只需17个词元。据统计,简体中文的训练费用大约是英语的两倍,西班牙语是英语的1.5倍,而缅甸的掸语则是英语的15倍。词元通常是指语料中文字存在的最小单位,但它的具体指代则是多变的,既可以是字、也可以是分词结果的词。
由于AI业界目前会使用词元来代表通过OpenAI或其他厂商API访问大模型所需的计算成本,所以也就意味着牛津大学的这项研究表明,英语才是目前训练大模型最便宜的语言,其他语言的成本则要大得多。
那么为什么会造成这一现象呢?用中文本身相比于英文更加复杂来解释显然并不科学,毕竟现代语言学是欧洲创建起来的,甚至现代汉语的语法分析原理也脱胎于西方的语法分析原理。
汉藏语系的语法结构与印欧语系相去甚远,参照印欧的屈折型语法来看以汉语为代表的孤立型语法,当然会觉得复杂。然而,词元(tokens)是以OpenA视角里中的训练成本来定义的,不是以字符来划分。而且,英文单词间是存在空格的,对英文文本处理时可以通过空格来切分单词。然而中文词之间不存在天然地空格,并且中文词是由多个字构成的,所以对于中文文本处理之前首先要进行分词。
真正导致用英文训练AI大模型成本更低的原因,是OpenAI等厂商的分词算法与英文以外其他语言的语义理解技术不到位有关。以OpenAI为例,作为一家美国公司,其团队在训练大模型时必然会选择以英语语料为起点,标注人工的投入显然也是英语系最方便,毕竟这会直接影响到大模型训练的强度和产出,也是为什么他们选择的人工标注团队在肯尼亚,而后者作为英联邦国家,以英语为官方语言、且教育水平较高。
AI理解不同语言不是通过翻译,而是直接学习相关语言的文本。那么AI大模型使用不同语言的能力差别又从何而来呢?答案是不同语言语料的丰富程度。此前百度的“文心一言”在内测过程中出现文生图不符实际的情况,就曾有主流观点认为,这是由于中文自然语言处理领域缺乏高质量中文语料所导致的结果。
而语料则是AI大模型的基础,生成式AI的原理大概可以总结为,通过大量的语料库进行训练,再从各种类型的反馈中进行流畅的学习,并根据需要对反馈进行整理,以建立相应的模型,从而使得AI能够对人类的问题做出相应的回答和决策。AI大模型之所以比以往的AI产品表现得更“聪明”,单纯是因为语料规模更大,比如OpenAI的GPT-3就拥有1750亿的参数量。
“力大砖飞”其实是当下大模型的底层逻辑,在这种情况下,语料基本就决定了它们的上限。语料肯定是越多越好,但如今的事实,却是英文才是目前互联网世界中使用人群规模最大、使用频率最高的语言。在去年6月,W3Techs又一次发布的全球互联网网页统计报告中就显示,英语仍一骑绝尘,占比高达六成(63.6%)以上,俄语为第二名(7%),中文则仅有1.3%、排名第八。
当然,W3Techs的统计只包含了网站,这也是为什么占全球网民五分之一的中文互联网中,能够拿得出手的网站仅占全球网站的1.3%。毕竟由于国内发达的移动互联网生态,App才是主体,大量信息已经聚集在了各式各样的App中,并且这些信息也难很通过爬虫获取,所以也导致其很难进行准确的统计。
这样的状态自然也导致了汉语语料库的匮乏,因为AI行业的惯例是使用互联网公开数据,而App里的数据则是属于运营方的,违规抓取App内数据是妥妥的违法行为。而国内互联网大厂将信息牢牢控制在自家App里,进而也导致了公开的中文语料不增反减。
不同于海外市场Reddit、Twitter这类愿意卖数据的平台,将无边界扩张思维铭刻在脑海里的国内互联网巨头,几乎每一家都在贪大求全,而敝帚自珍更是成为了各家共同的选择。既然互联网上的公开信息是以英文为主,即使国内的AI大模型训练往往也是从英文为起点,所以文心一言会出现“英翻中”的现象也就不足为奇了。
归根结底,AI大模型使用不同语言的训练成本,其实和该语言构筑的互联网生态繁荣程度呈现正相关。例如丹麦语、荷兰语等小语种使用者在互联网上留下的内容过于匮乏,就导致训练AI大模型使用它们来输出内容不光成本更高,而且效果也更差。但更加不妙的是,由于马太效应的影响,英文在AI领域的强势地位还或将会持续增强。
因此国内市场的AI大模型想要更好用,获得足够、且高质量的语料库是关键。互联互通这个已经被提出多时的概念真正被贯彻的那一刻,或许才是中文AI大模型比肩ChatGPT们的时候。
标签:
相关阅读
-
08-03
-
08-02
-
08-02
-
08-02
推荐阅读
-
英文训练AI大模型比中文更便宜,为什么会这样?
如今国内市场的“百模大战”正如火如荼,无论是BAT这样的传统豪强,还更多
2023-08-03 04:51:04
-
因网暴杨丽萍44岁舞伴从39楼跳下?杨丽萍发文天堂
在阅读此文之前,麻烦您点一下“关注”,既方便您进行讨论和分享,又能更多
2023-08-03 01:33:31
-
(女足世界杯)综合消息:瑞典法国小组第一 巴
中新社北京8月2日电 题:瑞典法国小组第一 巴西意大利双双出局更多
2023-08-02 22:53:34
-
8月3日,北京多所公园、景区恢复开放!最新汇总
8月2日,北京已先后解除雷电黄色、暴雨黄色预警。玉渊潭公园、颐和园、更多
2023-08-02 21:53:09
-
Here we go!罗马诺:曼城签下格瓦迪奥尔,转会
Herewego!罗马诺:曼城签下格瓦迪奥尔,转会费9000万欧,曼城,罗马诺,更多
2023-08-02 20:58:59
-
你猜,全国有多少个人叫“建军”?
今天八一建军节这个“八一”我们发出了寻找“建军”计划目前我们已经找更多
2023-08-02 20:35:11
-
华美乐乐(08429)发布中期业绩,股东应占亏损627.4
智通财经讯,华美乐乐(08429)发布截至2023年6月30日止六个月的中期业绩更多
2023-08-02 19:45:40
-
第1天吃的金针菇 为什么第2天会出现在便便里
生活中,我们常常会发现一些未被完全消化吸收的食物在排便过程中出现于更多
2023-08-02 18:41:45
时尚热图
热门标签
精彩放送
-
08-03
-
08-03
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
08-02
-
今日必看
-
精彩话题
-
最新见闻
- 天马三折车载OLED显示屏发布:摄像头内藏
- 中哈(连云港)物流合作基地首开中欧班列书籍专列
- 涿州“婴儿因洪水被困奶粉告急”进展:家长称正前往安全地带
- 乘联会:7月份新能源车市场零售64.7万辆 同比增长33%
- 京东捐赠3000万元物资驰援京津冀多地防汛救灾
- 斯巴鲁:计划到2030年将电池电动汽车销售占比升至50%
- 探馆成都大运会丨这座美术馆藏满了大熊猫
- 辉隆股份:完成发行4亿元中期票据(乡村振兴)
- 西部材料跌5.41% 机构净卖出6108万元
- 我们的家园|守护绿水青山 共书浪漫答卷
- 怎么查汽车国几排放(汽车怎么看国几排放?)
- 夏季腹泻高发 教您如何应对
- 埋下青春友谊的种子 各国运动员探寻大运会“熊猫情缘”
- 爱尔眼科:累计回购约1706万股 占比0.18%
- “非遗”进大运村啦!来看运动员们现场体验了哪些技艺?
- 常青科技:拟提前布局 筹划1.8亿元投建七期(特种高分子单体二期)项目
- 中国国家男子足球队原主教练李铁被提起公诉,涉嫌5项罪名
- 雪域高原上的青春之歌(我们这里的年轻人)
- 赋能千行百业 四川首个“跨行业跨领域工业互联网平台”花落长虹
- 华电重工:签署2.8亿元合同
- 54秒封顶成交!深圳首宗“竞现房”宅地 20家房企摇号抢
- 河南延津:购房首付全额存入监管账户前 不得发放按揭贷款
- 职业新路径?转型后 身价暴涨2亿
- windows10无法连接共享打印机怎么办 win10 无法连接到共享打印机
- 山西省规模最大运动会开幕在即 首设“伯乐奖”“未来之星奖”
- 水晶光电终止分拆子公司夜视丽至创业板上市
- 国家疾控局发布洪涝灾害健康教育核心信息 防范各类次生灾害
- 国内政策预期改善叠加美股冲高支撑港股反弹 8月看好3主线
- 庆“八一”送温暖 慰问新村退役军人
- 火炬电子:目前自产元器件产品未直接供货给机器人领域终端客户
- 华润微:订单量有所增加 但三季度产品价格仍有一定压力
- 平安到家!K396首批旅客抵达北京丰台站现场画面
- 网传“燕郊桥断了”?河北三河市公安:这是造谣
- 盲人和视障人士专享手机 8.2日发布
- 电工合金:公司主要产品包括电气化铁路接触网系列产品、铜母线系列产品及新能源汽车高压连接件系列产品
- 海河流域正在经历洪水演进过程 防汛最大压力在什么地方?专家分析
- 12万余册/件实物版本和42TB数字版本正式入藏国家版本馆
- 私募仓位已超8成 明星私募布局不同方向
- 上海地铁虹桥火车站站暑运每周五周日新增定点加班车,延时到0:20
- 助力防汛救灾!“北方暴雨救助信息上报平台”和“全国暴雨积水点地图”今上线
- 杭州楼市降温,新房、二手房和土地都不好卖了
- A股290股跌破每股净资产 ST世茂、ST泰禾、*ST海投市净率最低
- 每经操盘必知(下午版)丨银行、石油、钢铁等蓝筹股调整 三大股指齐跌;北向资金净卖出超50亿元;
- 山西潞安化工集团潞宁公司“问题清单”变“满意清单”
- 北京智地兴宁房地产开发有限公司被罚款2000元
- 海科新源:目前没有光刻胶领域的相关客户
- 万集科技投资新设科技公司 经营范围含集成电路设计
- 中国西电:目前不涉及“超导”领域
- 三江源源头地区正式建立5G远程观测点位
- 促进民营经济发展 出台“1+N”政策体系助力全国统一大市场
- 供应链上下游衔接顺畅 企业对市场前景保持乐观
- 如何跨越“表情包代沟”
- 金智教育回复创业板上市委审议意见落实函
- 8月南北多地洪涝灾害风险较高 江南北部可能出现阶段性高温干旱
- 网民建议推出“高铁老人年票”,国铁集团回应
- 国家网信办就移动互联网未成年人模式建设指南征求意见
- 短期指数或震荡整固 关注中特估以及低位价值股方向
- 中国造内燃机车“入列”中老铁路
- 连云港市连云区:落实税费支持政策助力旅游市场
- 从终端、应用到分发平台 国信办给未成年人网络保护设护栏
- 两部门:延续小规模纳税人增值税减免政策至2027年12月31日
- 富景中国第五次递表港交所 为山东省最大的盆栽蔬菜农产品生产商
- 【财经分析】央行定调调整存量房贷利率 支持房地产市场平稳健康发展
- 全运会10000米决赛夏雨雨 夏雨雨夺大运会女子万米金牌 基本情况讲解
- 晒业绩、找不足、明规划,市北区敦化路街道这场“擂台赛”,精彩
- 水利部针对蒙辽吉黑启动洪水防御Ⅳ级应急响应
- 中国造内燃机车“入列”中老铁路
- 心安之处即是家|丁肇辰:北京教书16年,助推两岸青年设计师交流
- 混合现实板块异动拉升 佳创视讯涨超10%
- 七匹狼:欧洲研发中心目前处于研发中心选址落地及部分合作洽谈中
- 看熊猫、学非遗、游成都 细数大运会运动员们的“中国印象”
- 龙磁科技:公司未从事钕铁硼磁体生产
- 张江高科投资新设创投公司 注册资本10亿元
- 视频 | 松阳“五香”舌尖上的秘境美食
- 超华科技:暂无超导材料的技术储备和研究
- 热情观赛 添彩盛会
- 再度爆发!超导概念飙升逾5%吸金超75亿元
- 保证合同的诉讼时效为多久
- 北京市气象局:本次降雨为有仪器测量记录140年来最大降雨
- 两部门:延续执行农户、小微企业和个体工商户融资担保增值税政策至2027年底
- 创多年来历史新高!南方五省区日发电量首次突破5000万度
- 低至3%!秒光
- 复合铜箔概念活跃 宝明科技、英联股份涨停 方邦股份涨超10%
- 新华社关注海南“村排”:丰富百姓精神文化生活 助力乡村振兴
- 皖能电力:6月的入炉标煤单价已降到2年前水平
- 水利部针对东北三省一区启动水旱灾害防御Ⅳ级应急响应
- 两部门:延续执行农户、小微企业和个体工商户融资担保增值税政策
- 蔚来“逆袭” 赛力斯“掉队”
- 两部门:延续小规模纳税人增值税减免政策至2027年底
- 精锻科技:近期已去墨西哥进行考察
- 两部门:继续加大对小微企业的支持 缓解融资难、融资贵问题
- 会畅通讯筹码持续集中 最新股东户数下降2.56%
- 格灵深瞳:对多模态大模型以及生成式AI的重视程度已经提升到战略层面
- 中国中学生保龄球锦标赛上海举行
- 台风“卡努”上午已入东海 登陆浙江福建可能性下降
- 两部门:延续小规模纳税人增值税减免政策至2027年底
- 东安县鹿马桥镇扎实开展新申请低保入户核查工作
- 热情观赛 添彩盛会(大运观澜)
- 赛微电子:公司北京工厂的生产经营未受暴雨影响
- 菜鸟供应链本月将再开七城