首页 > 财经 > 国内 >

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

来源：富途牛牛发布时间：2023-08-14 14:49:46

人类数据缺缺缺，AI被迫开始吃AI生产的数据了！

(资料图)

这是微软、OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据，然后现在……这些数据快被用完了。

BUT，要训练更好的大模型，多少数据都不够。

据《金融时报》介绍，不少公司正把大模型生成的结果、也就是所谓的合成数据（Synthetic data），喂给参数量更小的大模型吃，发现效果还不错。

对于使用合成数据，OpenAI的CEO Sam Altman不仅不介意，还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为：

合成数据可能加速通往“超级智能”AI系统的道路。

所以，究竟哪些大模型已经在用合成数据了，这些合成数据又是从何而来？

大AI合成数据，小AI吃

这些所谓的合成数据，本质上是用当前表现较好的大模型生成的数据，经过人工调整后，再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话，并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”，正在进行一堂虚拟的数学教学。同时，Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误，人类员工就会插手对文本进行修正。

尽管确实还需要人力，但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么，什么样的大模型会用到这些合成数据呢？

微软研究院最近有研究表明，合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例，这个数据集被证明虽然只包含4岁小孩能理解的单词，但用于训练一个大模型之后，同样可以生成语法正确、阅读体验流畅的故事：

对于使用合成数据的理由，Cohere的CEO Aidan Gomez认为：

能从网上获取数据当然更好，但网络数据太杂乱了，完全无法满足需求。相比之下，合成数据已经非常多了，即使它还没被广泛传播。

背后产业链已出现

目前，包括Scale AI、Gretel.ai等企业，已经开始给外界提供合成数据服务。

先是Scale AI，旗下就推出了一款合成数据产品Scale Synthetic，用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中，还提到GPT-4的数据集中，有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai，从官网来看，它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作，以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为，合成数据的好处在于，它保留了数据集中所有个人的隐私，同时仍然保持其统计学意义上的完整性（statistical integrity）。

但并非所有人都接受合成数据这种“神奇操作”，目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内，有不少搞大模型的企业仍然坚持这一做法，并认为它可能生成更好的AI，甚至从中诞生出“超级智能”。

另一部分则认为，合成数据终将让AI“自食其果”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明：

使用合成数据训练，会让模型出现不可逆转的缺陷：

忘记那些“不可能发生的事件”，最终被自己生成的数据毒害。

有网友认为，这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行清洗。

还有网友调侃，这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗？

编辑/lambor

标签：

分享到：QQ空间新浪微博腾讯微博人人网微信

上一篇：亚马逊股价大涨背后：头部基金二季度上演“买买买”

下一篇：最后一页

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放

人类数据缺缺缺，AI被迫开始吃AI生产的数据了！这是微软、OpenAI等一众更多

2023-08-14 14:49:46

亚马逊股价大涨背后：头部基金二季度上演“买买买

今年二季度，美国对冲基金Baupost集团以及共同基金巨头富达基金等多家更多

2023-08-14 13:58:36

机构：Q2印度成为全球第五大iPhone市场

TechInsights指出，$苹果(AAPL US)$iPhone该季度出货量在印度同比增长更多

2023-08-14 12:57:01

医药领域行业整治影响如何，哪些细分板块将受益？

7月21日国家卫健委等10部门联合召开视频会议，部署开展为期一年的全国更多

2023-08-14 12:46:39

港股午评 | 港股全线走低，科指跌超3%；汽车股

富途资讯8月14日消息，港股三大指数震荡下行，恒指跌2 41%，科指跌3 09更多

2023-08-14 12:53:20

手握两大“候选药王”，礼来要做第一个万亿药厂！

在达成5000亿美元市值目标后，$礼来(LLY US)$希望凭借阿尔茨海默症和减更多

2023-08-14 12:45:52

一图前瞻 | 腾讯业绩重磅来袭，机构料宏观复苏

本周明星中概股陆续发布财报，作为港股科网股龙头，$腾讯控股(00700 HK更多

2023-08-14 12:46:37

暑期档3部影片票房破20亿，机构看好爆款潜力影片

据灯塔专业版数据显示，截至8月13日，2023年暑期档已有3部影片累计票房更多

2023-08-14 11:50:51

摩根大通：维持阿里巴巴-SW“增持”评级，目标价

摩根大通发布研究报告称，在内地消费疲软、市场竞争的负面影响及电商投更多

2023-08-14 11:45:53

放大招！特斯拉Model Y国内又降价，新能源车降价

造车新势力纷纷降价，“卷王”特斯拉也在第一时间跟上了降价步伐。8月1更多

2023-08-14 11:47:24

人类数据告急，微软OpenAI开

大AI合成数据，小AI吃

背后产业链已出现

猜你喜欢

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放

亚马逊股价大涨背后：头部基金二季度上演“买买买

机构：Q2印度成为全球第五大iPhone市场

医药领域行业整治影响如何，哪些细分板块将受益？

港股午评 | 港股全线走低，科指跌超3%；汽车股

手握两大“候选药王”，礼来要做第一个万亿药厂！

一图前瞻 | 腾讯业绩重磅来袭，机构料宏观复苏

暑期档3部影片票房破20亿，机构看好爆款潜力影片

摩根大通：维持阿里巴巴-SW“增持”评级，目标价

放大招！特斯拉Model Y国内又降价，新能源车降价

亚马逊股价大涨背后：头部基金二季度上演“买买买”

加拿大要求剥离在加锂矿资产中矿资源等三家公司回应：影响不大

2023电信日|思特奇以科技创新为翼，携手运营商数字生态共飞腾

“检察小镇”激发共建共治新活力福建长汀检察探索服务乡村新路径

业绩快报信息披露不准确震有科技被出具警示函

深圳纺织服装出口快速增长前三季度民营企业出口纺织服装333.7亿元

刘晓庆都爱喝的新柔型酱酒，就在家大业大酒

建设绿色未来！比亚迪参与巴西太阳能建设生产光伏组件超200万块

48小时点击排行

图片新闻

没有稳定工作也可以进行贷款买车吗具体规定你知道吗？

安徽人民币各项存款余额增速全国第三企业融资成本稳中有降

中信银行上饶分行因员工行为管理不到位被罚50万

多家银行近期宣布暂停智能投顾业务申购投资者该怎么办？

关于我们

联系方式

供稿服务

版权声明

广告服务