当前位置:首页 > 新闻资讯 > IT业界 > 新闻
GPT-4激发生产力革命,打工人如何与AI共存?
  • 2023/3/24 15:12:11
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:吴新
  • 作者:
【电脑报在线】“相信各位都已经从 ChatGPT中获得了不少乐趣,我们研发人工智能的初衷是为了更好地提高人们的生活质量,从正面来看,这将会是目前为止,人类发展出的最先进的科技。

但担心归担心,将来会有更多的人迷茫,每个人都需要时间去适应和适应这种新技术。”面对越来越聪明的AI,OpenAI CEO同时也是ChatGPT的创始人Sam Altman坦承对自己的杰作感到“有点害怕”。而在AI快速成长的今天,我们应该如何与其共存呢?

多模态GPT-4发布,AI冲击算法之巅


ChatGPT的热度还没过去,它的进阶版就来了。3月15日,距离AI(人工智能)聊天机器人ChatGPT的亮相还不到4个月,它的开发商OpenAI又推出了新版多模态预训练大模型——GPT-4。与基于GPT-3.5的ChatGPT相比,GPT-4的表现更为惊人,让许多网友大呼:“这下AI真的要取代人类了!”

能玩梗能考律师的GPT-4来了

3月15日凌晨,OpenAI发布了多模态预训练大模型GPT-4,这也是其大型语言模型的最新版本。

与此前的版本相比,GPT-4具备强大的识图能力,文字输入限制也提升至2.5万字;GPT-4的回答准确性也显著提升,还能够生成歌词、创意文本从而实现风格变化。同时,GPT-4在各类专业测试及学术基准上也表现优良。         

“这是OpenAI努力扩展深度学习的最新里程碑。”OpenAI介绍,“GPT-4是一个大型多模态模型,它接受图像和文本输入、进行文本输出,虽然在许多现实场景中它尚且不如人类,但在各种专业和学术基准上表现出与人类相当的性能。”OpenAI介绍称,在日常对话中,GPT-4与GPT-3.5之间的差距或许微妙,但当任务复杂度足够高的时候,GPT-4将具备更可靠、更具创造性的特点,且能够处理更细致的指令。

例如,根据OpenAI公布的实验数据,GPT-4通过模拟律师考试且分数在应试者的10%左右。相较之下,GPT-3.5版本大模型的成绩是倒数10%。 

除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等。此外,在多语种方面,GPT-4也体现出优越性。在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能,其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中,GPT-4能够达到80.1%的准确性。   

与此前的GPT模类似,GPT-4基础模型可在训练完预测文档中的单词。在数据样本方面,也同样适用公开可用的数据及许可数据。为了提升基础模型回应与用户之间意图的匹配性,OpenAI同样选择了强化学习人类反馈(RLHF)来微调模型行为。

具体而言,GPT-4可能是OpenAI推出的最神秘版本,这无疑标志着它将从非营利性研究机构向盈利性技术公司的全面转型。而从上游的“卖水人”(为A I产业提供训练数据等基础设施),到ChatGPT竞品的研发商和下游应用端,均有热门公司披露了商业化进展,试图以不同方式来“分一杯羹”。

GPT-4开启AI多模态时代

“多模态、推理能力、预测扩展性 ”是GPT-4的三大亮点,而多模态可以说是GPT-4最大亮点。GPT-4可以接受文本和图像的提示,允许用户指定任何视觉或语言任务。具体来说,给定由穿插文本和图像组成的输入,GPT-4 生成文本输出(自然语言、代码等)。 

多模态算法即融合文字、图片、音视频等多种内容形式的 AI 算法,多模态出世之前,AI 模型只专注于单一领域,例如自然语言处理或计算机视觉等;多模态技术出现后,模型已经从早期单一的自然语言处理和机器视觉发展成自动生成图画、图像文字、音视频等多模态内容,极大地推动了 AIGC 的内容多样性和通用性。      

AI要渗透到各行业,向多模态发展是必然趋势。各个应用场景需要交互的输入输出各不相同,例如 AI 绘画从输入图像或者文字得到图像,PalM-E 同时处理视觉、语言和传感器,极可能应用到工业生产。同时多模态的大模型也可以通过细分领域数据微调,高效地应用到各个领域。毕竟现实世界中的数据天然就是多模态的,通用人工智能必然需要有能感知和理解多模态数据的能力,未来的人形机器人能和人类一样,可以综合通过听觉视觉触觉来与世界做出各种交互。

初探“人类思维”

GPT-4 相较于 GPT-3.5 模型更加强大,更可靠、更有创意、且更能够理解细微的指令,表现出来的性能为,在各种专业和学术考试以及 NLP(自然语言处理)基准测试上达到或超越人类水平。  

GPT-4 具备极强的复杂推理机制,无论是复杂的逻辑推理、编程推导或者是密集型内容帮助,GPT-4 皆表现能力不俗,例如 ChatGPT 可以帮助税务人士进行密集的内容帮助,该模型快速得到了标准答案,并且可以做到“理解它的解释”。如此,GPT-4会对编程、内容审核等场景产生深远影响。              

研发团队在机器学习传统基准测试上(包括 MMLU、HellaSwag 等)比较了 GPT-4 和GPT-3.5、SOTA 等模型的性能,结果显示 GPT-4 在这些基准测试上的表现大大优于现有的大型语言模型,并且在大多数测试中超越了目前最先进的SOTA 模型。

总体来讲,GPT-4具有更强的生产力属性,尤其是在应用层面,GPT-4可能快速改变各行各业的生产和消费模式。从政府治理、社会治理的数字智能化,到教育、就业、个人发展的新形态,它都可能为人类带来不可替代的利好作用,成为我们身边稳定存在的伙伴。随着GPT-4对人机交互模式的改变,多模态能力首先有望重塑从浏览器到文档智能等的软件交互,未来还有望重塑从手机、PC、智能手表到智能家居的硬件交互。

OpenAI模型的应用场景正加速落地

由于大模型的规模化效应(scaling law),增加模型参数量、数据量有助于提升模型表现。过去数年中,行业推出大模型时也往往标榜模型规模之大。然而本次GPT-4 并未在论文中提供参数量、数据量等信息,AI行业渐渐尝试逐渐走出单纯强调模型规模的时代,降低使用门槛、提高实际落地效果成为通用AI新的发展方向。

对OpenAI本身而言,GPT-4也能创造价值。GPT-4仍为 API 接口收费:目前 GPT-4 目前仅向 ChatGPT 的付费用户开放,同时也会作为 API 提供给企业及开发者,开发者需进入候补名单上。根据techweb 数据,GPT-4  8k长度版本收费为,请求收费为0.03 美元/1000token,回复收费为 0.06 美元/1000token,GPT-4 32长度版本的收费为 请求收费为0.06美元/1000token,回复收费为0.12美元/1000token,而GPT-3.5收费为0.002美元/1000token(请求相应相同)。

在商业变现的加持下,OpenAI也能投入足够的资金完成对GPT的训练和升级,进而打开更广的应用空间。

而这次OpenAI在发布GPT-4的同时,推出便于落地的工具并开源了Evals评估框架便于用户选择模型。这意味着使用千分之一至万分之一的算力就能够可靠地预测GPT-4在下游垂直领域使用的性能,下游厂商可以先以较小的成本广泛试用,最终选择最合适自己需求的大模型。

具体在应用方向上,现阶段,大模型的能力还主要体现在NLP 上,因此主要用于搜索(如微软继承了大模型的New Bing)、航程辅助、聊天机器人变种(猎头使用软件、智能客服,智能音箱、游戏NPC等),而1-5 年内,随着多模态的发展,大模型首先会用于 Office 类办公工具,还将有多类简单多模态方案落地(智能家居、工业视觉、行业化机器人)、行业专家(AI 医疗、教育等)、智能助理(聊天、工作安排、点外卖、购物等) 。

未来,结合复杂多模态方案的大模型将具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。         

不止于生产力,巨头的AI时代还有哪些看点?

当地时间 3 月16 日,微软宣布将人工智能工具 Microsoft 365 Copilot融入其办公软件套件,包括Word、Excel和Outlook电子邮件等,再加上此前发布的新版必应也搭载了OpenAI GPT-4技术的聊天机器人,微软Azure也成为了OpenAI唯一的云服务提供商,这意味着微整合了其背后OpenAI创造的所有AI能力,利用OpenAI的排他性商用合作,让微软有了独有技术优势。

从Office开始,直切“打工人”刚需  

首先,创作辅助是ChatGPT及相关预训练大模型的最适合场景之一,以Office系列为代表的Microsoft365是微软核心产品线,结合人工智能,Microsoft 365 Copilot的Word,PPT,Excel都可以一键生成,只需要用户给一些简单的命令,就能够生成一个非常详细的草稿或者可视化。

根据微软的演示视频来看,在PowerPoint里,用户只需要给它提出需求,它就自动做出一整套PPT,美观的页面自动给你设计好,如果你有现成的素材,那只要轻轻一点Copilot,它就会根据你写好的Word文件自动生成一份PPT。此外,你还可以一键浓缩冗长的PPT,并使用自然语言命令去调整布局,重新编排文本,还可以卡点完美的动画时间。

至于Excel这个隐藏技能非常多,高阶操作难度很大的报表软件,用户最大的痛点就是公式实在是难记,但到了Copilot时代也不需要用户去记公式了,它会自动发现数据的相关性并提出假设方案,以及根据你提出的问题给出公式的建议,甚至生成新的模型。而Outlook就更神奇了,Copilot可以帮你写邮件,只需要你起个头,提出个具体的要求,甚至可以指定要用什么语气,然后它就会自动补完内容,顺便大大润色你的文字。

所以,Microsoft 365 Copilot虽然尚未商用,但从宣传效果来看对于文字工作者、商务会议、科研报告等工作看成福音,直击打工人的刚需,除此之外,微软协同沟通会议平台Teams集成GPT实现自动会议纪要的计划已经官宣,也就是咱们开会也不需要专人记录了,会议一结束,详尽的纪要文件就出来了,效率提升不言而喻。

客户服务和开发辅助,AI也能大展拳脚

客户服务领域也是企业关注的重点,在这方面GPT的摘要能力可谓有的放矢,它可以从琐碎的沟通记录、咨询投诉工单中快速形成摘要,让业务人员更精准地服务客户,从海量评论中快速汇总分类大众喜好,都能更快实现降本增效。

从实际案例来看,以美国二手车厂商CarMax为例,因为平台上有超过45000辆二手车库存,二手车的每台车都有不同的车况,如果没有明确的信息指引就很容易导致买家迷茫,而在使用 OpenAI 构建的 GPT-3 自然语言模型后,短短几个月内就生成了大量从真实用户评论中提取出最易于阅读和理解的亮点摘要,比如“适合家用、乘坐舒适、空间大”等等,买家可以直接看到CarMax销售的每个品牌、型号和年份的不同车辆的用户评论摘要,告别了信息壁垒。

考虑到微软针对企业运营有Dynamics 365平台,包括销售、财务、客户服务等8个模块,集成OpenAI的效果就可以参考CarMax的案例,必然对产品能力有质的提升,毕竟To B服务是微软的关键赢利点。另外,微软旗下的职业社交网站领英也一直在整合OpenAI人工智能,毕竟领英自己的招聘系统多年来一直都在使用人工智能来推荐候选人。    

在开发辅助领域,虽然也跟自然对话一样是生成内容,但开发者生态非常特殊且微软非常重视,所以具体的措施也不太一样。自从收购GitHub之后,微软Azure+VSCode+Github已经实现了资源+工具+内容的端到端覆盖。

而近日微软已经官宣了Github Copilot for business工具,是GitHub和OpenAI合作研发,由一个名为 Codex 的全新 AI 系统提供支持,该系统基于 GPT-3 模型,可以根据命名或者正在编辑的代码上下文为开发者提供代码建议,Copilot 已经接受了来自 GitHub 上公开可用存储库的数十亿行代码的训练,支持大多数编程语言,比如 Python、JavaScript、TypeScript、Ruby、Go等等。

根据我们的实际体验来看,它能够理解我们的代码并提供一些快速的代码片段供用户选择,准确度挺高,但如果是比较有新意的代码就需要自己先写一段,然后再交给他生成,效率会更高。   

巨头变“寡头”?垄断阴霾已初现    

不难看出,作为OpenAI背后最大的大佬,微软自己将成为GPT最新技术的第一批用户,而且微软旗下所有的产品及服务都会因为类似ChatGPT的集成而能力大升,但问题也接踵而至:从多年的历史经验来看,一家独大并不是好事,毕竟GPT需要大量的云计算资源来实现,OpenAI和Anthropic等人工智能初创公司只能与少数几家能够提供这项能力的科技巨头合作才有未来。微软在今年初宣布将向OpenAI投资数十亿美元,谷歌在二月宣布向Anthropic投资3亿美元,将持有Anthropic 10%的股份,而去年11月底,另一家生成式人工智能初创公司Stability AI宣布选择亚马逊作为合作伙伴…… 

之所以只有这几个老面孔出现,是因为云计算资源非常昂贵,以ChatGPT为例,OpenAI首席执行官山姆奥特曼曾表示每次聊天可能都要花费“几美分”,这表明每月为1亿人提供聊天服务可能会花费数百万美元。据业内人士估算,ChatGPT每次查询的成本大约是传统搜索查询成本的七倍,所以它是不是真的能实现“降本增效”,就取决于微软Azure云服务的价格区间,这也是OpenAI推出付费版ChatGPT Plus的原因。

如果人工智能公司只能跟这几家巨头在云计算上进行合作,那意味着人工智能时代,寡头的出现几乎成为了必然,因为对于初创公司来说,从一家云服务提供商跳到另一家云服务提供商是很困难的,即使没有排他性协议,但在迁移过程中也会发现自己基本上已经和前一家深度绑定。而这种现状引起了反垄断监管机构的担忧,欧盟委员会负责竞争政策的执行副主席玛格丽特维斯塔格警告称,元宇宙和人工智能都是需要监管审查的数字市场。

数据跨境流通难,GPT落地中国有难度

虽然在欧美地区存在垄断嫌疑,但在我国,这个情况或许不会出现,因为OpenAI目前并没有开放中国内地及中国香港用户开放注册,其中有美国外贸管制法规或“国家安全”事务的解释,也有出于对大语言模型类技术和商业秘密的保护,当然更重要的一点还是数据跨境存在难度,因为我国和美国的数据规则不同,人工智能是一种算法,而算法则依托于数据,如果数据无法互通,自然就谈不上落地。

而且OpenAI提供的服务属于增值电信业务的范畴,如果想进入中国市场,则需要办理增值电信业务许可证,再加上2021年版《外商投资准入负面清单》规定,增值电信业务的外资股比不超过50%(电子商务、国内多方通信、存储转发类、呼叫中心除外),基础电信业务须由中方控股。

GPT4落地之快,将远超前辈

那如果是OpenAI和中国企业进行合作开发呢?如果是在中国境内合作,前提是OpenAI首先要在满足中国《网络安全法》《数据安全法》《个人信息保护法》及相关数据出境合规要求,并进入中国市场,同时尊重市场的规律,实现“数据可用但不可见”。

当然,中国企业也可以通过在海外开设公司,在尊重当地法律法规、数据安全保障,严格落实算法解释权,以及尊重市场规定的基础上与OpenAI合作,但这种合作开发出的产品能否回到中国并提供给国内用户使用,也仍然涉及到数据跨境流通的问题。

当然,即便现在看起来是困难重重,但国内也有万兴科技、万科等企业接入了微软Azure OpenAI,并取得了初步的成效,所以虽然落地有难度,但前途应该还是光明的。

如上所述,将GPT-4大模型的能力接入微软Office全家桶并不是一个容易的事,它不是一个随便的GPT接口,而是一个系统性的工程。微软AI办公套件的推出因此被业内人士视为GPT-4大规模商用的“iPhone 时刻”。

在OpenAI透露的信息中我们也可以看到,类似的商业落地应用,即自然语言处理大模型的实际应用表现已经取代参数规模的扩张成为新的宣传重点。

OpenAI在官网上给出了6个GPT-4的应用案例,包括语言学习软件Duolingo(多邻国)嵌入GPT-4模型、扮演语言学习老师解答问题;与应用程序Be My Eyes合作,通过图像理解能力为视障人士提供生活帮助等;以及微软旗下的Bing浏览器一个多月前已经嵌入了GPT-4大模型,为用户提供更智能的搜索结果。

这些案例足以说明OpenAI已经意识到,大模型的规模扩张边际回报递减,“越多人用,成本越低”,因而比起在规模上持续扩张,探索如何在学习率、批次大小(迭代所需样本数量)等方面精进成为了突破的重点。

另一方面,这次没有公布任何GPT-4相关模型参数数据、算力或训练方式的OpenAI,已经越来越像一个营利性科技公司,GPT-4也更像是一个产品而非研究成果。那么在商业落地上,GPT-4想象空间究竟有多大? 

共创游戏剧情  

比起元宇宙这个宏大飘渺的概念,GPT-4模型对于游戏行业整个生态的影响将会更加直观,游戏创作、数字营销、数据和模型训练等环节将首当其冲,经历新生产工具的洗礼。

其实早在ChatGPT大热之前,游戏厂商就已经尝试通过AI优化用户体验、降低研发成本。尽管游戏产业在全球坐拥超30亿玩家,整个市场加起来的产值将近2000亿美元,但对于游戏厂商来说,研发和后续的运营、维护费用都是一笔巨款,且越成功的作品越烧钱:《塞尔达传说:旷野之息》成本达1.2亿美元,3A手游《原神》的研发成本约1亿美元,上线后每年还得花2亿美元保持稳定更新。

米哈游曾利用AI完成游戏角色口型和声音匹配,完全由AI合成输出的声音也被用在了其推出的虚拟偶像“鹿鸣”身上;在美术绘画辅助方面,ChilloutMix+LoRA等模型融合进化已经能够实现较为真实的图像生成,对于角色创意、场景概念等高耗时环节的冲击深远。

一位大厂外包的游戏原画师透露,一些小厂为了减少成本,“能用AI出图就用AI,游戏UI的图标很多都是AI画的,反正都是垃圾小游戏,厂商也不在乎细节。”据华泰证券研报指出,已有工作室通过应用AIGC将制作100名角色由5万美元的开发成本及6个月的工时缩短至1万美元及1个月,节省成本及时长超80%

游戏反过来也会帮助AI模型底座走向成熟。从简单的扑克游戏再到需要更复杂策略和操作的多人在线策略游戏,高复杂度、高挑战性、强协作性环境的游戏场景,都为AI的训练提供了理想的环境。腾讯AI Lab就曾在《王者荣耀》中训练策略协作型AI“绝悟”,并联合游戏建设“开悟”训练平台为科研人员提供人工智能研究训练时所需要的大规模运算。

GPT-4作为多模态自然语言模型,同样可以大幅提升游戏制作的生产效率,并降低游戏研发维护的成本。用新科技做出来的游戏,不管在玩法还是交互上,都与以往的游戏不同,类似于《西部世界》这样的游戏也不再只是科幻。

细分来看,GPT-4不仅可以自动生成剧本创作、角色对话、任务设计,还能够通过学习和理解游戏测试数据,自动生成游戏测试脚本;在全球推广环节,GPT-4也能基于强大的翻译功能和对不同文化背景的理解帮助开发者优化游戏内容,实现本地化。

而这一大模型最直观的应用其实是游戏中的智能NPC(非玩家角色),《头号玩家》等影视作品中都已经展现过这一未来场景。但限制在于,如今搭载了GPT-4的ChatGPT在聊天方面几乎达到了人类心目中的“自然”,但距离真正的“人工智能”还差得多。

“目前技术还远不够成熟。作为游戏NPC,GPT-4一是很难产生连贯沟通的真实感,二是做不到有趣。”在算法工程师林楠看来,后者是问题的关键,“玩家期望的NPC是一个既能与玩家自由互动,又能拓展游戏体验的载体,但GPT-3都还没有做到流畅感,不知道GPT-4可以提升玩家体验到什么程度。”

在游戏中大规模应用GPT-4的另一个阻碍在于软件使用和维护成本。基于GPT-3开发的文字冒险类游戏AI Dungeon就因为高昂的成本,不得不放弃了GPT转投更便宜的语言模型。

由初创公司Latitude开发的AI Dungeon玩法与GPT-3十分契合。参与者可以通过输入任意内容,AI Dungeon 都能识别后并创作后续故事,参与者再根据AI创作的后续故事进行人为创作,如此循环往复。而在2021年玩家数量创新高时,Latitude每月都需要支付OpenAI近20万美元以换取GPT3接口,这对于小型游戏厂商来说并不轻松。

不过,国内资本雄厚的大厂如腾讯、网易都已经跃跃欲试,希望将自家AI技术成果应用于游戏世界。腾讯已经公布了自家的类ChatGPT对话型产品“混元助手”,网易则宣布在今年6月即将推出的手游《逆水寒》中,将实装类ChatGPT对话模型,玩家可以体验与NPC的开放式对话。

GPT-4能否颠覆制药环节? 

在生物医药领域,AI的作用更多体现在制药环节。毕竟AI技术本质上是一种高级建模方法,借助各类算法与规则,AI能自动计算出特定问题的最优解,在药物发现环节,越来越强大的AI很有可能会开启一个突飞猛进的时代。

最近广受关注的深度学习模型正是一种较为通用的算法体系,基于GPT-3的生成式AI产品能够快速预测药物的化学结构、生物活性和药物靶点。通过高效分析大量生物医学文献,AIGC产品可以帮助研究人员迅速找到具有治疗潜力的候选化合物,乃至通过对分子、细胞、器官,动物,临床等不同层面数据的整合分析,实现药物研发流程的整体优化,从而加速新药研发过程。

“如果没有新的技术手段,有些靶点可能100年后都找不到合适的分子,而现在用ChatGPT就可以短期迅速验证大量可能性。”新型药物研发平台水木未来CEO郭春龙认为,过去一百年人类在生命科学上的探索,相当于盲筛,而现在X光、冷冻电镜、Alphafold(与GPT类似的深度学习模型,用于预测蛋白质结构)和ChatGPT等工具将会完全改变制药行业。

这里需要解释一下靶点的重要性,药物靶点是指药物在体内的作用结合位点,包括基因位点、受体、酶等生物大分子。现代新药研究与开发的关键首先是寻找、确定和制备药物的分子药靶。

针对新靶点,AI会首先从巨大的化合物空间中初步筛选出一系列可能有效的化合物;随后,使用AI与基于量子化学原理的算法,乃至分子和细胞层面的实验,对通过初筛的化合物做更精细的筛选。此轮精细筛选后,AI又以这少数化合物为基础,在化合物空间中进行再一次筛选,形成循环。

尽管AI还没有真的制造出可以用于临床的药物,但不妨碍医药企业和技术公司进场押注。目前,全球销售额超过200亿美元的药企均在AI领域与不同初创公司达成合作协议,与此同时,AI制药初创公司的数量也在迅猛增加。截至2022年第三季度,全球约有600家AI药物研发公司,同比增长21.6%。

不过再幻想通过新技术延缓衰老之前,我们也需要意识到,AI与传统制药企业的结合仍需要突破数据的壁垒。

AI领域发展强调“开放”二字,其成长取决于训练数据的广度和质量,但药物研发中最核心的数据往往掌握在药企手中,亦成为AI优化药物研发行业的掣肘。发展数百年的国际大型制药企业虽然数据积淀丰厚,却壁垒森严,希望这些企业分享涉及核心知识产权的数据难度极高。

因此,我们认为GPT-4短期内还很难颠覆制药行业生态,但随着技术的发展,作为辅助工具,AI一定可以精简无效环节,为制药工业开辟更多捷径。

编辑|张毅
审核|吴新
本文出自2023-03-20出版的《电脑报》2023年第11期 A.新闻周刊
(网站编辑:ChengJY)