导读:


本文作者陈巍博士。曾担任华为系自然语言处理( NLP )企业的首席科学家


存算一体/GPU架构和AI专家,高级职称。中关村云计算产业联盟,中国光学工程学会专家,国际计算机学会(ACM)会员,中国计算机学会(CCF)专业会员。曾任AI企业首席科学家、存储芯片大厂3D NAND设计负责人,主要成就包括国内首个大算力可重构存算处理器产品架构(已在互联网大厂完成原型内测),首个医疗领域专用AI处理器(已落地应用),首个RISC-V/x86/ARM平台兼容的AI加速编译器(与阿里平头哥/芯来合作,已应用),国内首个3D NAND芯片架构与设计团队建立(与三星对标),国内首个嵌入式闪存编译器(与台积电对标,已平台级应用)

ChatGPT的关键改进可以参考paper:Augmenting Reinforcement Learning with Human Feedback
本文为深度技术科普与解读文章,不涉及过多技术名词。

0,引言

先上参考网页或论文。专业的读者可以直接看paper。

ChatGPT: Optimizing Language Models for Dialogue ChatGPT: Optimizing Language Models for DialogueGPT论文:Language Models are Few-Shot Learners Language Models are Few-Shot LearnersInstructGPT论文:Training language models to follow instructions with human feedback Training language models to follow instructions with human feedbackhuggingface解读RHLF算法:Illustrating Reinforcement Learning from Human Feedback (RLHF) Illustrating Reinforcement Learning from Human Feedback (RLHF)RHLF算法论文:Augmenting Reinforcement Learning with Human Feedback cs.utexas.edu/~ai-lab/pTAMER框架论文:Interactively Shaping Agents via Human Reinforcement cs.utexas.edu/~bradknoxPPO算法:Proximal Policy Optimization Algorithms Proximal Policy Optimization Algorithms


今年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。

据报道,ChatGPT在开放试用的短短几天,就吸引了超过 100 万互联网注册用户。并且社交网络流传出各种询问或调戏ChatGPT的有趣对话。甚至有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体,能够在实时互动的过程中获得问题的合理答案。ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。通过学习大量现成文本和对话集合(例如Wiki),ChatGPT能够像人类那样即时对话,流畅的回答各种问题。(当然回答速度比人还是慢一些)无论是英文还是其他语言(例如中文、韩语等),从回答历史问题,到写故事,甚至是撰写商业计划书和行业分析,“几乎”无所不能。甚至有程序员贴出了ChatGPT进行程序修改的对话。ChatGPT也可以与其他AIGC模型联合使用,获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力,使我们看到了AI大规模落地的曙光

<span style="margin: 0px; padding: 0px; outline-style: initial; outline-width: 0px; –tw-border-spacing-x: 0; –tw-border-spacing-y: 0; –tw-translate-x: 0; –tw-translate-y: 0; –tw-rotate: 0; –tw-skew-x: 0; –tw-skew-y: 0; –tw-scale-x: 1; –tw-scale-y: 1; –tw-pan-x: ; –tw-pan-y: ; –tw-pinch-zoom: ; –tw-scroll-snap-strictness: proximity; –tw-ordinal: ; –tw-slashed-zero: ; –tw-numeric-figure: ; –tw-numeric-spacing: ; –tw-numeric-fraction: ; –tw-ring-inset: ; –tw-ring-offset-width: 0px; –tw-ring-offset-color: #fff; –tw-ring-color: rgb(59 130 246 / 0.5); –tw-ring-offset-shadow: 0 0 #0000; –tw-ring-shadow: 0 0 #0000; –tw-shadow: 0 0 #0000; –tw-shadow-colored: 0 0 #0000; –tw-blur: ; –tw-brightness: ; –tw-contrast: ; –tw-grayscale: ; –tw-hue-rotate: ; –tw-invert: ; –tw-saturate: ; –tw-sepia: ; –tw-drop-shadow: ; –tw-backdrop-blur: ; –tw-backdrop-brightness: ; –tw-backdrop-contrast: ; –tw-backdrop-grayscale: ; –tw-backdrop-hue-rotate: ; –tw-backdrop-invert: ; –tw-backdrop-opacity: ; –tw-backdrop-saturate: ; –tw-backdrop-sep