三级电影 数亿好意思元! 传英伟达已收购合成数据公司Gretel

  • 首页
  • 戒色吧
  • 色吧网
  • 亚洲色吧
  • 色吧中文网
  • 色吧5
  • 日韩电影
  • 你的位置:波多野结衣作品全集 > 色吧5 > 三级电影 数亿好意思元! 传英伟达已收购合成数据公司Gretel
    三级电影 数亿好意思元! 传英伟达已收购合成数据公司Gretel
    发布日期:2025-07-01 00:17    点击次数:134

    三级电影 数亿好意思元! 传英伟达已收购合成数据公司Gretel

    三级电影

    作家 | ZeR0

    智东西3月20日讯息,据《连线》报谈,两位了解该交游的东谈主士清晰,英伟达已以九位数收购了合成数据公司Gretel。

    讯息东谈主士称,这次收购价钱稀薄了Gretel最新的3.2亿好意思元(约合东谈主民币23亿元)估值,不外具体的收购条件尚不明晰。Gretel绝顶约80名职工的团队将被并入英伟达,其本领将手脚英伟达生成式AI服务套件的一部分。

    这次收购正好英伟达推出合成数据生成器具之际,设备东谈主员不错试验我方的AI模子并针对特定专揽进行微调。表面上,合成数据不错创造近乎无穷的AI试验数据供应,并匡助处置自2022年ChatGPT成为主流以来一直困扰AI行业的数据稀缺问题。尽管众人默示,在生成式AI中使用合成数据有其自己的风险。

    英伟达、Gretel发言东谈主拒却发表挑剔。

    一、交游将补强英伟达合成数据布局

    Gretel成立于2019年,创举东谈主包括Alex Watson、John Myers、Ali Golshan,Golshan担任首席实施官。这家初创公司为念念要构建生成式AI模子但无法得回饱和试验数据或对使用真是数据存在阴私担忧的设备东谈主员提供合成数据平台和一套API。

    Gretel不会构建和授权我方的前沿AI模子,而是对现存的开源模子进行微调以添加互异阴私和安全功能,然后将它们打包在一齐出售。Pitchbook炫耀,该公司在被收购前筹集了稀薄6700万好意思元的风险投资资金。

    与东谈主类生成的数据或施行天下数据不同,合成数据是由打算机生成的,旨在师法施行天下的数据。复旧者觉得,这使得构建AI模子所需的数据生成更具可膨胀性、工作强度更低,况且更易于限制较小或资源较少的AI设备东谈主员使用。

    阴私保护是合成数据的另一个关节卖点,使其成为医疗健康提供商、银行和政府机构的有眩惑力的采选。

    多年来,英伟达一直在为设备东谈主员提供合成数据器具。2022年,该公司推出了Omniverse Replicator,让路发东谈主员能够生成自界说的、物理上准确的合成3D数据来试验神经收罗。

    旧年6月,英伟达启动推出一系列绽开式AI模子,这些模子可生成合成试验数据,供设备东谈主员用于构建或微调大说话模子。这些迷你模子被称为Nemotron-4 340B,设备东谈主员不错使用它们为我方的大说话模子收酌量成数据,触及“医疗保健、金融、制造、零卖和其他总共行业”。

    二、合成数据能补凑数据集,增强阴私保护

    在昨日主题演讲中,英伟达创举东谈主兼CEO黄仁勋谈到行业在以经济高效的形势快速膨胀AI方面所濒临的挑战。

    “咱们重心原宥三个问题,”他说。“第一,若何处置数据问题?若何以及在那儿创建试验AI所需的数据?第二,模子架构是什么?第三,Scaling Laws是什么?”黄仁勋陆续描写了该公司咫尺如安在其机器东谈主平台上使用合成数据生成。

    瑞士洛桑联邦理工学院商讨合成数据阴私的博士后商讨员Ana-Maria Cretu说,合成数据至少能以几种不同的形势使用。它不错禁受表格数据的体式,举例东谈主口统计或医疗数据,这不错处置数据稀缺问题或创建更各样化的数据集。

    Cretu举了一个例子:如若一家病院念念要建立一个AI模子来跟踪某种类型的癌症,但正在处理的数据集惟有1000名患者,那么不错使用合成数据来填凑数据集,放弃偏见,并匿名化真是东谈主类的数据。

    “这还不错提供一些阴私保护,因为您不可向利益有关者或软件相助伙伴流露真是数据。”Cretu说。

    但Cretu补充说,在大说话模子边界,合成数据也已成为“咱们若何才能跟着时刻的推移增多大说话模子的数据量?”的一个兼容并包的阶段。

    三、访佛试验可能导致质地显耀下落

    众人们惦念,在不久的翌日,AI公司将无法像过去通常解放地获取东谈主类创造的互联网数据来试验他们的AI模子。旧年,麻省理工学院数据开头规划的一份敷陈炫耀,对绽开收罗本色的甘休正在增多。

    表面上,合成数据不错提供一个简便的处置有谋划。但2024年7月《当然》杂志上的一篇著作强调,当AI说话模子用其他模子生成的数据反复微调时,它们可能会“崩溃”,即质地显耀下落。

    换句话说,如若你只给机器喂它我方生成的输出,表面上它就会启动自食其力,终端吐出残渣。

    AI数据标注公司Scale AI的首席实施官Alexandr Wang共享了《当然》杂志对于X的著作中的发现,他写谈:“固然现在很多商讨东谈主员将合成数据视为AI的玄学之石,但寰宇莫得免费的午餐。” 他在自后的发帖中称,这等于他信服夹杂数据才略的原因。

    Gretel的一位和谐创举东谈主反驳了《当然》杂志的这篇论文,他在一篇博客著作中指出,对纯合成数据进行访佛试验的“极点场景”并不代表“施行天下的AI设备实践”。

    融会科学家兼商讨员加里·马库斯(Gary Marcus)高声月旦AI炒作,他其时原意Alexandr Wang的“会诊,但不原意他的处方”。他觉得,通过设备新的AI模子架构,而不是专注于数据集的特色,该行业将上前发展。

    日本少妇

    在给《连线》杂志的一封电子邮件中,马库斯谈谈,“像(OpenAI的)o1/o3这么的系统似乎在编码和数学等边界推崇更好,因为在这些边界,你不错生成和考据多半合成数据。在绽开式边界的通用推理方面,它们恶果较低。”

    Cretu觉得,围绕模子崩溃的科学表面是合理的。但她指出,大多数商讨东谈主员和打算机科学家王人在使用合成数据和真是数据进行试验。“通过在每一轮新试验中使用新数据,你大约能够幸免模子崩溃。”她说。

    结语:大模子龙头和科技巨头已积极转向合成数据

    对模子崩溃的担忧,并莫得装束AI行业加入合成数据潮水,即便他们这么作念时畸形严慎。

    据报谈,在最近的摩根士丹利本通晓议上,OpenAI和谐创举东谈主兼首席实施官Sam Altman吹捧OpenAI使用现存AI模子创建更多数据的才气。

    Anthropic首席实施官Dario Amodei信赖可能不错构建“一个无穷的数据生成引擎”,通过在试验进程中注入极少新信息来保握其质地。

    大型科技公司也启动转向合成数据。

    Meta谈到了若何使用合成数据试验其首先进的大说话模子Llama 3,其中一些合成数据来自Meta的上一个模子Llama 2。

    亚马逊云科技的Amazon Bedrock平台允许设备东谈主员使用Anthropic Claude来生成合成数据。

    微软Phi-3袖珍说话模子部分是在合成数据上进行试验的,该公司申饬称,“预试验过的大说话模子生成的合成数据偶然会裁减准确性并增多下贱任务的偏差。”

    谷歌DeepMind也一直在使用合成数据,但这再次突显了设备用于生成和爱护真是奥密的合成数据的管谈的复杂性。

    “咱们知谈总共大型科技公司王人在商讨合成数据的某些方面,”音乐授权初创公司Rightsify的创举东谈主Alex Bestall说三级电影,该公司还正经生成AI音乐并将其目次授权给AI模子。“但在咱们的交游中,东谈主类数据频频是契约要求。他们可能念念要一个60%由东谈主类生成、40%由合成的数据集。”