搜索
 找回密码
 立即注册

英伟达创始人对话OpenAI首席科学家:AI的今天和未来

admin 2023-3-23 19:25:29 109949
北京时间今天凌晨,英伟达公司在全球开发者大会上发布了创始人黄仁勋(Jensen Huang)与ChatGPT背后的机构OpenAI的联合创始人、首席科学家Ilya Sutskeve的对话视频。
客观地说,这是一场非常深刻、真诚、谦逊的思想对谈。
从“大语言模型是人们对GPT的误解”,到“是否具备可靠性是AI的关键”,再到多模态数据对准确率的影响,Ilya Sutskeve都逐一耐心解答。
在对话的最后,Ilya Sutskeve感慨自己从业20余年,看着AI从“小透明”到震惊人类:“它还是那个神经网络,只是变得更大,在更大的数据集上以不同的方式训练,但是训练的基础算法都是一样的,这是最令我惊讶的!”
我们将这个近55分钟的视频对话,整理为文本,希望对每位阅读者都带去启发。
注:碳基人类在内容整理过程中不免有疏漏,敬请谅解、指正。

黄仁勋:从我认识你以来,你做了很多开创性的工作,从多伦多大学就开始了。你与Alex(Krizhevsky)和Jeff hinton一起共同发明了AlexNet,还带来了现代化AI的大爆炸。你的职业生涯也把你带到了美国湾区。OpenAI的创立,GPT-1,2,3,还有让AI风靡全世界的ChatGPT,让整个行业都对你的成就由衷敬佩。
让我追溯过去,先来问问你关于深度学习的一些问题。你对深度学习是什么认识?为什么你知道它会发挥作用?你心中就一定认为深度学习会取得如此成就吗?
Ilya Sutskeve:首先,非常感谢您的盛赞。
我对AI感兴趣的原因有很多,出发点是对AI巨大影响力的直觉。
同时,我也对究竟什么是意识充满了好奇。究竟什么是人类体验?我觉得AI发展能帮着我去理解这些。
从2002年-2003年那个时候,学习是一件只有人类,或者普通人类就能做的事情,但是计算机完全办不到。在2002-2003年那时,计算机还不会学习任何东西,甚至在理论上是否可行都不太清楚,所以我想如果能在智能学习或者机器学习方面做出一些成果,将很有可能成为AI领域的最大进步。所以从那时起,我开始在整个领域做一些探索。
一开始还没有那么乐观,但幸运的是,Jeff Hinton是我所在大学的一名教授,我找到了他,他的工作方向就是神经网络,这就是我想要的。因为神经网络的特性就在于能够学习,可以自动编程的并行计算机。那个时候并行计算还很小,但是希望在于,如果你弄明白学习和神经网络的工作原理,那你就可以从数据中去编程小的并行计算机,而它与大脑的工作原理是相似的,所以就好像有了几个理由可以支撑你继续走下去,但是还不太清楚如果让它起作用。然而基于已有的所有东西,似乎表明,它的前景是最光明的。
黄仁勋在你首次开始使用深度学习和神经网络时,网络的规模是多少?当时的计算规模是多少?
Ilya Sutskeve:有意思的是,在当时,没人意识到规模的重要性。
100个或几百个神经元这已经是最大的神经网络了。一百万的参数会被认为很庞大,我们一般在没有优化过的CPU代码上跑我们的模型,用优化过的Matlab,我们做一些实验。有趣的观察是,你试试这个,试试那个,都是小的尝试。
Jeff Hinton当时对训练神经网络用于很小的数字感到兴奋,一方面是对分类任务,同时他对于如何生成那些数字也很感兴趣,所以生成模型的源头就从那里开始。但是问题在于,你做的那些很酷的东西都很零散。
什么才能真正推动技术进步?当时并不明确就是对的问题。但是后来看,恰恰对了。
黄仁勋:AlexNet是在2012年?
Ilya Sutskeve:是的。
黄仁勋:2012年你和Alex在AlexNet工作了一段时间,你具体何时知道要构建面向计算机视觉的神经网络,Imagenet才是那个合适的数据集?应该做些事来参加计算机视觉的竞赛?
Ilya Sutskeve:首先我先介绍一些背景。我记得大概是在我发现有监督学习才是我们前进的方向的两年前,它不仅仅是一种直觉,也是无可辩驳的。
如果你的神经网络非常深且很大,那就可以用它去解决一项有难度的任务。所以关键词就是“深”和“大”。
那个时候,人们还没有去关注大的神经网络,人们可能正在研究神经网络的深度,但是大部分机器学习的领域根本没有去研究神经网络,他们正在研究各种贝叶斯的模型和内核方法,这些方法虽然有优雅的理论基础,但并不表示就是一个好的解决方案,无论你怎么配置它们。
但是大型的深度神经网络却能在面对问题求解时,给出一个很好的答案。为了找到一个很好的解决方案,你们需要一个合适的大数据集以及大量的计算来完成这项工作。
我们也做了一些高级的工作,在优化方面做了一些工作。很明显,优化是一个瓶颈,在Jeff Hinton实验室的另一位研究生,James Martens取得了突破,他提出了一种与我们做的不同的优化方法,他使用了一些二阶方法,但是关键在于,事实证明我们可以训练这些神经元,因为之前我们都不知道能否训练它们。
所以如果你能训练神经网络,你就把它变大一些,然后去找一些数据,去找什么样的数据?答案就是ImageNet。
在当时看来,ImageNet是一个难度很高的数据集,但很明显,如果你要训练一个大的卷积神经网络,在此数据集上,它必须得成功,如果有足够的算力。
黄仁勋:恰在当时,你和我,我们开始同行。你怎么发现GPU能用的?那时我们开发了几个版本的CUDA GPU,我记得应该是GTX 580,你发现GPU 实际上对训练你的神经网络模型是非常有用的?给我讲一讲,你之前从来没有给我讲过。那一天到底是怎么开始的?
Ilya Sutskeve:CPU出现在我们多伦多的实验室,这件事应该感谢Jeff Hinton,他说我们应该试试GPU,我们开始尝试和试验它们。
这个过程很有意思,但是我们也没有完全搞懂它们真正的用途在哪里、怎么样才能把它们发挥出作用。但是接下来我们就发现,随着ImageNet数据集的出现,卷积神经网络是非常适合GPU的模型。所以有可能把它变得非常快。因此就能做规模远超以前的训练。就这么发生了。
非常幸运的是,Alex Krizhevsky真的很喜欢GPU编程,他能够去编程开发非常快的卷积核函数,然后去训练神经网络,用的是ImageNet数据集,并且最终得到了结果。
黄仁勋结果就震惊了世界,大幅打破了计算机视觉的记录。这是非常明显的突破性进展。
Ilya Sutskeve:对,我是想说它并不是之前方法的延续,它并不是像常规那样的打破纪录,换一种说法来表达,关键点在于这个数据集其实是很难的,而且它是超出一般的范围的,其他人是会用经典的方法取得一点进展或做点事,但是这件事在数据集上好多了,因为它是如此困难的,不仅如此,这个比赛当时不是一个普通比赛,很遥不可及,如果你做的很好,那将是惊人的。
黄仁勋:AI大爆炸快进到现在,你来到了硅谷,和一些朋友创办了OpenAI,你是首席科学家,关于OpenAI,你工作的最初想法是什么?你看到的一些发明和既往工作带来了ChatGPT时刻,最早的源动力是什么?你是怎么达到现在的成就?
Ilya Sutskeve:当我们开始的时候,并不是100%清楚如何推动。
而且这个领域与现在非常不同,当然我们现在习惯了惊人的神经网络来做很棒的事情,每个人都很兴奋,但是回到2015年-2016年,早在2016年初,我们开始创业时,研究人员要少的多,可能比现在少100-1000倍,那时我们只有100个人,他们中的大多数人在Google/Deepmind工作,然后有人开始学习这些技能,但仍然非常稀缺。
我们有两个很大的最初的想法,在OpenAI开始的时候,这些想法的持久力一直伴随着我们到今天,并且我现在会描述一些它们。
我很早就有个奇妙的想法,那就是通过压缩进行无监督学习
今天我们想当然地认为无监督学习易如反掌,你只需对所有事情进行预先训练,而且一切都完全按照你的预期进行。但在2016年,无监督学习是机器学习中的一个尚未解决的问题,没有人知道该怎么做。Yann LeCun(注:Yann LeCun是2018年图灵奖得主、CNN之父,Facebook人工智能实验室前负责人)到处演讲,说“无监督学习是巨大的挑战”、“监督学习”。
我真的相信好的数据压缩将产生无监督学习,当然知道压缩并不是通常所谈的事情。突然之间,很多人了解,这些GPT实际上压缩了训练数据。
你可能还记得Ted Chiang在《纽约时报》上的文章也提到这一点。但是从数学意义上讲,训练这些自回归生成模型可以压缩数据,并且直观上你可以看到它们为什么应该起作用,如果你将数据压缩得非常好,你就必须能够提取其中存在的所有隐藏信息,所以这就是关键。
第一个兴奋的想法就是,OpenAI中对情绪神经元的一些工作,我将非常简要地提到这一点,这项工作在机器学习领域不太多人关注,但实际上,它很有影响力。特别是我们的思路。
这项工作,结果是神经网络,但它并不是Transformer,而是在Transformer之前的模型。很多人记得,是小型循环神经网络LSTM。
我的意思是,这是我们自己做的一些工作,因此我们用相同的LSTM稍微调整了一下,来预测Amzon评论的下一个字符,我们发现,如果你预测下一个字符足够好,就会有一个神经元。
所以这真的很酷,因为它展示了无监督学习的一些效果,并验证了良好的下一个字符预测、再下一个预测的想法。
压缩具有发现数据中的秘密的特性,这就是我们在这些GPT模型中看到的。你进行训练,人们说指示统计相关性,在这一点上,对我来说,就直接开启了新世界,那我从那里获得无监督学习的数据?因为我确实有很多数据,如果我能做到,下一个字符,我知道真实结果,我知道答案是什么,我可以训练神经网络模型,以便观测和屏蔽以及其他技术、其他方法。
广开思路,看看哪里可以获取所有无监督的数据。换一种说法,在无监督学习中,困难的部分不在于从哪里获得数据。尽管现在也有这个问题,更多是关于为什么要这样做?为什么要费心?困难的部分是意识到训练这些神经网络以预测下一个token是一个值得追求的目标,这样它会学校到一个可以理解的表征。
但它将使用语法,实际上它并不那么显而易见,所以人们没有这样做。情感神经元的作用你知道,Alec Radford是真正推动许多进步的人,这是在GPT-1之前,它是GPT-1的前身,它对我们的思维有很大的影响,然后Transformer来了,我们立即想到,哦,天啊,就是它了。
我们训练了GPT-1,在这个过程中,你一直相信,扩展规模会改善这些模型的性能,更大的网络,更深的网络,更多的训练数据将使其扩展。OpenAI写了一片非常重要的论文,讨论了扩展规模和模型大小,以及数据集数量之间的关系,数据集的大小。当Transformer出现时,它给我了我们合理的时间训练非常大的模型的机会。
黄仁勋:对于模型和数据大小的扩展规律的直觉,相对于GPT-1、2、3哪个先出现,你有看到GPT-3的发展路径还是现有扩展规律的直觉?
Ilya Sutskeve:直觉。我想说,我有个很强烈的直觉,更大是更好。
在OpenAI,我们的一个目标就是找出规律,扩展的正确途径,OpenAI一开始就对扩展抱有很多新年,问题是如何准确地使用它。因为我现在提到的是GPT,但是还有另外一条非常重要的工作路线,我还没有提到。
第二个大想法就是强化学习,这显然也很重要。你用它做什么?在OpenAI中完成的第一个真正的大型项目是我们解决一个实时战略游戏,实时战略游戏就像是一项竞技运动,你需要聪明、你需要快速反应,有团队合作,你正在与另外一个团队竞争,这是非常复杂的,而且这个游戏有一个完整的竞争联赛,这个游戏叫做Dota2。
我们训练了一个强化学习agent来与自己对抗,目标是达到一定水平以便可以与世界上最好的玩家竞争。这也是一个重大的项目,它是一个非常不同的工作方向。
黄仁勋:我记得你们宣布这项工作。我更早时被问到,OpenAI做了大量的工作,有些看起来像是走了弯路,但事实上,正如你现在解释的那样,他们可能是弯路,但它们真正导致了我们现在讨论的一些重要工作ChatGPT。
Ilya Sutskeve:是的。
黄仁勋:GPT产生了技术基座,从Dota的强化学习,转变为人类反馈的强化学习。这种组合给我们ChatGPT产生了误解,认为ChatGPT本身只是一个巨大的大型语言模型,但事实上,围绕它的有一个相当复杂的系统,你能为观众解释一下吗?对它的微调、对它的强化学习,各种周围的系统,才能让他能运作起来,让它提供知识等。
Ilya Sutskeve:是的,当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个词时,我们正在做的是,我们正在学习一个世界模型,表面上看起来是我们在学习,但实际上,只是去学习文本中的统计相关性就可以把这些知识压缩的非常好。
神经网络所学习的是生成文本的过程中的一些表述,这个文本实际上是这个世界的一个映射,世界在这些文字上映射出来,因此,神经网络正在学习从越来越多的角度去看待这个世界,看待人类和社会,看人们的希望、梦想、动机、交互和所处情绪。神经网络学习一个压缩的,抽象的、可用的表述,这就是正在准确预测下一个词的任务中学习的东西。此外,你对下一个词的预测越准确、还原度越高,在这个过程中你得到的世界的分辨率就越高。所以这就是预训练阶段的作用。
但是,这并不能让神经网络表现出我们希望他能够表现出的行为,你看一个语言模型,它真正要做的是回答以下问题,如果我在互联网上有一些随机的文本,它以一些前缀、一些提示开始,它将补全什么内容呢?可能只是随机地用互联网上的一些文本来补全它。这和我想要拥有一个助手是不同的,一个真实的、有帮助的、遵循某些规则的助手是需要额外的训练的。这就是微调。
和来自于人类老师的强化学习,以及其他形式的人工智能协助可以发挥作用的地方,人类老师和AI合作的强化学习,去教导我们的AI模型,但不是教它新的知识,而是与他交流,和它传达:我们希望它成为什么样。
而这个过程中,第二个阶段也是极为重要的。第二阶段做得越好,这个神经网络就越有用、越可靠。
第一阶段学习一切,尽可能多地从世界的映射中学习这个世界的知识。
黄仁勋:你可以对它进行微调,你可以指示它执行特定任务,能不能指示它别做一些事?给他设置一些安全护栏,去避免这一类型的行为。给他一些边界,这样他就不会偏离着边界执行那些不安全的事情?
Ilya Sutskeve:是的,第二阶段的训练确实是我们向神经网络传达我们想要的任何东西,其中包括边界。我们做的越好,我们传达的这个边界的保真度就越高。因此通过不断的研究和创新来提高这种保真度。我们能够提高这种保真度从而使它在遵循预期指令的方式上越来越可靠和精准。
黄仁勋:ChaGPT在几个月前就出来了,它是人类历史上(用户数)增长最快的应用,关于它的原理已经有了很多解释,这是为每个人创建的最易用的应用,它所执行的任务、做的事情超出人们的期望,任何人都可以使用它,没有指令说明,也无所谓错误的方法,用就行了。
而如果你的指令提示不明确,对话就继续、消除歧义直到你的意图被应用所理解。这带来的影响非常显著,GPT-4在许多领域的表现令人震惊,在SAT、GRE、律师考试中分数都很高,一次又一次表现都很优秀,很多预测都达到了优秀人类领先水平,太震撼了。ChatGPT和GPT-4之间的主要区别是什么?
Ilya Sutskeve:GPT-4和ChatGPT相比,在许多纬度上做了相当大的改进,我们训练了GPT-4,也许是6个月或者是8个月以前的事情,我记不得太清楚确切时间了,GPT是第一个ChatGPT和GPT-4之间的区别,这也许是最重要的区别。
在GPT-4的基础上构建预测下一个单词具有很高的准确度,这是非常重要的,因为神经网络越能预测文本中的下一个词,它就越能理解它。这种说法现在也许已经被很多人接受了,但它可能仍然不直观,或者说不完全直观。
不知道为什么会这样,我举个例子,能说明为什么对下一个词的更准确预测会导致更多的理解、真正的理解。
假设你读了一本侦探小说,就像复杂的情节,故事情节不同的人物,许多事件、神秘的线索,现在还不清楚,在书的最后一页,侦探收集了所有的线索,召集了所有的人,并说“好吧,我将揭示谁犯了罪,那个人的名字是——“ 
黄仁勋:预测那个词?
Ilya Sutskeve:正是预测那个词。
黄仁勋:我的天啊。
Ilya Sutskeve:预测那个词,现在有许多不同的词,但是通过预测这些词,可以让模型实现越来越好的理解,随着对文本的理解不断增加,GPT-4预测下一个词的能力也变得越好。
黄仁勋:人们说深度学习不会逻辑推理,但是为了预测下一个词,所有可选的角色里面或从他们的意图和背景中找出优势或弱点,并能够预测这个词、“谁是凶手”?这需要一定量的推理,相当多的推理,因此,他是如何能够学会推理的呢?
如果它学会了推理,我将要问的就是,做了哪些测试?在所有的ChatGPT和GPT4之间的测试中,有一些测试是chatGP已经非常擅长的,有一些测试是GPT-3后者ChgGPT不擅长的,而GPT-4则要好得多,还有一些测试是两者都不擅长的,我很希望如此。而且其中一些似乎与推理有关。在某些领域,它似乎展示了推理技能。
在预测下一个词的时候,它是否在学习推理?它的局限性又是什么?现在的GPT-4是如何进一步提高其推理能力的?
Ilya Sutskeve:推理并不是一个很好定义的概念,但无论如何,我们可以尝试去定义它。
这就是,也许当你进一步的时候,如果你能够以某种方式思考一下,并且因为你的推理而得到一个更好的答案,我们的神经网络也许有某种限制,例如要求神经网络思考来解决问题,已经被证明对推理极为有效,但是我认为,基本的神经网络能走多远还有待观察,我们还没有充分挖掘它的潜力。
在某种意义上,推理肯定还没有达到那个水平,神经网络具备其他的一些能力,虽然我们希望神经网络的推理能力要很高,甚至我认为要更高才能像往常一样持续提升此能力,但也未必。
黄仁勋:问ChatGPT一个问题,它在回答问题前,首先会告诉我知道些什么,然后才去回答这个问题。通常人回答一个问题前,如果他告知我具备哪些基础知识,或者是回答问题前做的一些基本假设,这会让我更相信他的回答。这也在展示某种程度上的推理水平,所以在我看来ChatGPT具备这种天生的能力。
Ilya Sutskeve:某种程度上,用一种方式去理解现状,这些神经网络具备很多这类能力,只是他们不太可可靠。
事实上,你可以说目前可靠性是让这些模型有用,或者说是真正有用。
有时会存在一些情况,这些神经网络会产生幻想,或这些神经网络可能会犯意想不到的错误,而人不会犯这些错误,正是这种不可靠性使得他们的用处大大降低。
但是我想,或许通过更多的研究,和当前的一些想法,或者一些远大的研究计划,我们一定能实现更高的可靠性,这样模型才会真的有用,并且能让我们能设定精确的护栏,非常精准的。这也会使得模型学会问清楚他不确定的地方或者它压根不知道的知识。
当模型学会后,他不知道的问题不会回答,回答的答案也会非常可信,所以我要说,这是当前模型的一些瓶颈,这不仅仅是模型是否具备特定的能力,准确说,是具备多少能力。
黄仁勋:提到实时性和真实性,还有幻想,我之前看过一个视频,它展示了GPT-4中从维基百科的页面做检索的能力,那GPT-4真的包含索检能力?它是否能够从事实中检索信息以加强对你的响应?
Ilya Sutskeve:当GPT-4发布时并没有内置的检索功能,它只是个非常好的预测下一个词的工具。
它还可以处理图像,一些高质量的图片。通过数据和强化学习的变体进行微调,以特定的方式表现出来。也许,但我确定肯定会有人有权限访问GPT-4,并尝试使用它做查询,把回答代入到上下文中。因为GPT-4的上下文持续时间相当长,结果不会让我感到惊讶。
总结来说,虽然GPT-4还没有支持信息检索,但它完全具备这个能力,它也将通过检索变得更好。
黄仁勋:多模态GPT-4具备从文本和图像中学习,并能对以文本和图像作为输入的请求做响应的能力,首先多模态学习的基础,Transformer使得我们可以从多个模态中学习,例如把文本和图像token化,在此基础上,帮助我们理解多模态是如何增强对世界的认知。
除了文本本身之外,我的理解是,当你在训练多模态模型时,甚至仅仅使用文本提示词时,文本提示词本身就可以提升文本理解,从基础上来看,多模态为什么如此重要?重大突破是什么?以及由此产生的特征差异是什么?
Ilya Sutskeve:多模态有两个维度、或者是两个原因让它如此有趣。
第一个原因有点谦虚,多模态是有用的,它对神经网络很有用,尤其是视觉,因为这个世界是非常视觉化的,人类是视觉动物,人类大脑皮层的三分之一都用于视觉,我相信由于没有视觉神经网络的用处虽然相当大,但并没有达到它应有的那么大,所以这是一个非常简单的有用的论点。很显然GPT-4可以“看”得很好。
第二个原因是,除了从文本学习外,我们还可以从图像中学习这个世界的知识。这也是很强的论点,尽管他像看上去那么明确,举个例子,或者我给出宽泛的说法,人类一辈子会听到十亿个词。
黄仁勋::只十亿?
Ilya Sutskeve:是的,这非常夸张,这不是很多。
黄仁勋:包不包括我脑海里的词?
Ilya Sutskeve:让它称为20亿好了。
你可以看到这么多,是因为十亿秒是30年,我们一秒只能看到几个字,并且我们有一半的时间都在睡觉,所以几十亿个词,是我们一生中得到的总数。
那么有尽可能多的信息来源非常重要,并且我们绝对可以从视觉上学到很多。
同样的论点也适用于我们的神经网络,除了,神经网络可以从相当多的词中学习,所以原本很难从几十亿字的文本中认知世界,(神经网络)会变得更容易,甚至可以从数万亿的词语中学习。
举个例子,比如颜色,人们需要看到颜色才能理解颜色,但是神经网络在“一生中”从没有“看”到过一张照片,如果你问它们什么颜色更接近,它知道红色比蓝色更接近橙色,也知道蓝色比黄色更接近紫色,这是怎么实现的?
一个答案是,这个世界的信息甚至是视觉的信息,会慢慢通过文本传播出去,但是它非常缓慢,不是很快速,你仍然可以学习到很多东西,当然,当你加入视觉信息,并从视觉中学习知识,你就会学到额外的知识,这些知识是无法从文本中获得的,但是我不会说,它是一个二进制文件。
有些东西无法从文本中学习到。我认为这更像是一种交换速率,你想学习、你想像人一样,从十亿个单词或一亿个单词中学习,那么有其他信息来源变得更重要。
黄仁勋:使得你可以从图像中学习,是否有一种感觉说明,如果我们也想了解世界的结构,就像我的手臂连接着我的肩膀,再连接我的手肘,就能移动。这个世界的动画,这个世界的物理,如果我也想了解这一点,我可以只看视频并学习吗?
Ilya Sutskeve:是的。
黄仁勋:如果我想扩展,或者某人说伟大的意义,“伟大可能是伟大的”,或者“伟大可能是伟大的”,你能分辨一个是讽刺,一个是陈述。还有很多的词,“生病了”“或者是我生病了”取决于人们如何表述。
音频对模型学习也会有帮助吗?我们会好好利用他吗?
Ilya Sutskeve:是的,我认为肯定是这样的。关于音频,它很有用,它是一个额外的信息来源,可能不如视频图形那么多。但是这种情况下,还是有必要的。音频的实用性,无论是在识别方面还是生产方面。
黄仁勋:你谈到上面所说分数,真正有趣的是,你们发布出来的数据,哪个测试在GPT-3中表现良好?哪个测试在GPT-4表现的更好?你认为多模态在这些测试中起了多少作用?
Ilya Sutskeve:我直接说啊,每当有测试,你需要真正了解这个问题是,可以看看这些图表,比如一些数学竞赛,比如高中生的数学比赛ACM12中,有很多图表的问题,所以GPR-3.5在测试中表现的相当差,只有文字模态的GPT-4我记不太清楚了,但它可能有2%-20%的准确率,当你添加视觉模态时,它会提升之40%,视觉模态的加入是非常棒的。
能够在视觉层面进行推理,和在视觉上进行沟通,我们也将变得非常强大和非常棒,我们对世界中仅仅几个事物的了解,然后发展到你可以了解整个世界,然后你可以把这个世界做视觉化推理,视觉化的沟通。
“现在在哪里?未来在那里?”如果你问神经网络“嘿,你回答我一下”。它不仅会用4个段落回答,还会生成一个小图表,清楚告诉你。
黄仁勋:这真是不可思议。你之前还说过,关于用AI来训练另外一个AI的事情,有一篇论文是写的这个主题,我不确定它是否属实,它说全世界大概有4万亿-20万亿这么多数量的语言tokens在一段时间内可以被用于训练模型,所以,可以用来训练的token会慢慢消耗殆尽。
首先我不知道你是否有同样的感觉?然后AI是否会用自己生成的数据来训练自己?你也可以反驳。这是一个循环,但是我们无时不刻不在用生成的数据。通过自我反省的方式,训练我们的大脑,并在脑海里思考某一个问题。我猜,神经科学家会建议人们保持充足睡眠,我们会做很多类似于睡眠的事儿来完成我们的神经元,你如何看待合成数据生成领域?这是否会成为未来AI训练的一部分,AI能否会训练自己?
Ilya Sutskeve:我认为,我不会低估那里的数据,我认为可能有比我们人们意识到的更多的数据。至于你的第二个问题,这种可能性仍有待观察
黄仁勋:未来的某些时候,当我们不使用AI时,它也许会生成对抗性的内容来学习的或想象着它需要解决的问题,来不断提升自己,并告诉我们它能做什么。关于“我们现在在哪里,我们将来会在哪里”这类问题可以被AI回答的时间并不遥远,而是可见的一两年。你认为语言模型会去向何处?
Ilya Sutskeve:预测是困难的,尤其是对于太具体的事情。我们有理由认为这个领域会持续进步,我们将继续看到AI系统在它的能力边界继续震惊人类。
AI的可靠性是由是否可以被信任决定,未来肯定回答到可被完全信赖的状态,如果它不能完全理解,它也会通过提问来弄清楚问题,会告诉你自己不知道,同时会说它需要更多的信息。
我认为,AI可用性影响最大的领域,未来会有最大的进步,因为现在我们就面临着一个挑战,你想让一个神经网络去总结长的文档,获取摘要,挑战就是能确定重要的细节没有被忽略吗?但是当你知道所有的要点都被涵盖,尤其是如果一个要点显然重要到看到的人都会对此重要性达成一致,那么我们就会承认神经网络总结内容是很可靠的,对内容护栏也是一样,它是否清楚的遵循用户的意图也会成为衡量可靠性的标准,未来2年,我们会看到很多这样的技术。
黄仁勋是的,这两个领域的进步将使得这项技术变得更值得信赖。并使人们能够应用在更多事情上,我还有一个问题。ChaGPT到GPT4,你是什么时候第一次开始使用它的?它表现出来什么技能让连你都为之惊讶?
Ilya Sutskeve:它展示了许多东西,很酷的东西,这些东西都是很酷且令人惊奇的。我想怎么才可以最好的表达。
简短的回答是,它的可靠性水平令人惊讶,在此之前的神经网络如果你问一个问题,它可能会以一种近乎愚蠢的方式误解,GPT4不会让这种事发生。它解决数学问题的能力变得更强大,你真的可以认为它真的进行了推导,负责的推导,并且还转换了单位,这真的很酷,
黄仁勋:通过一步步的证明来工作。
Ilya Sutskeve:不是所有的证明都是那么自然的,但起码有很大一部分,就像是许多人注意到它可以用同一个字母开头的单词写诗,每个词都请清晰地遵循着指令,虽然不完美,但是已经非常好了。
在视觉方面,我真的很喜欢它是如何解释笑话,它可以解释网络梗。
你给他看一个梗并问他这个为什么好笑,它会告诉你原因并且它说的还是对的。我认为,在视觉部分,它就像真的可以看到哪些图,当你用一些复杂的图像或者图表来问它问题,并得到一个解释时,这真的太棒了。
退一步讲,我已经从事这项工作很长时间了,几乎整整20年了,最让我感到惊讶的是它真的有效,它似乎一直以来对人类来说都是小事儿,但它现在不再渺小,变得更重要、更强烈,它还是哪个神经网络,只是变得更大,在更大的数据集上,以不同的方式训练,但是训练的基础算法都是一样的,这是最令我惊讶的!
每当我后退一步,我就会想,这些想法、这些概念性想法怎么可能呢?大脑有神经元,所以也许人工神经元也一样好,所以也许我们只需要用一些学习算法,以某种方式,来训练这些神经元,来将他们的参数调解到如此难以置信的地步,这本身将是最大的惊喜。
黄仁勋:在我们相识的十多年时间里,关于训练的模型和数据,你从事AlexNet训练到现在,已经扩大到100万倍,在计算机科学界,没有人会相信在这十年间,计算量会扩大到100万倍,并且你的整个职业生涯都致力于此。你也是这两个开创性的成就,早年间AlexNet和现在诞生的GPT的OpenAI你取得的成就真了不起。
很高兴能在此与你进行思想上的碰撞,我的朋友,这是一个相当美妙的时刻,今天的对话,你将问题抽丝剥茧、逐一解释,这是最好的PHD之一,我真的很感激,很高兴再见到你。
Ilya Sutskeve:我也是。谢谢。

延伸阅读:
  • 比尔盖茨最新全文:GPT是我一生中见到的两项最具革命性技术之一
  • 以图生图!Stability.ai发布生成式人工智能工具

  • ChatGPT + OA=?谷歌、微软先后给出解题思路





111037.jpg
随机推荐

最新主题

0 回复

高级模式
游客
返回顶部