翻译

翻译的一些我觉得不错的科技文章。

2023 年人工智能与开源界的风云变幻 [译]

2023 年即将过去，此刻不失为回首这一年人工智能领域研究成就、产业发展以及开源社区的盛况的好时机。

November 5, 2023

可解释语言模型：探索传统与创新方法 [译]

在本文中，我们会详细介绍和评估一些语言模型的可解释性技术，其中不乏 Normal 的一些创新尝试（比如与概率机器学习相关的技术），它们都旨在提升 AI 系统的可靠性和推理能力。我们将尝试以浅显的方式介绍这些技术，同时指出在实际应用中，直觉有时候可能会带来误导。

November 4, 2023

长故事概要：针对长视频问答的“概括后检索”方法 [译]

GPT-3 等大语言模型展现了它们在不需要特定训练数据的情况下适应新任务的惊人能力。这一能力在诸如叙事性问题解答的场景中特别有用，那里的任务种类繁多，而可供学习的数据却相对匮乏。在这项研究中，我们探讨了这些语言模型是否能将它们的零样本推理才能延伸到多媒体内容中的长篇多模态叙事，如戏剧、电影和动画，故事在其中发挥着核心作用。我们提出了一种名为“Long Story Short”的视频叙事问答框架，它首先把视频的故事概括为简短的情节，再检索与问题相关的视频片段。我们还建议采用 CLIPCheck 来提升视觉匹配的效果。我们的模型在长视频问答方面，相较于现有的最先进监督模型取得了显著的领先，展现了零样本问答技术的巨大潜力。

November 4, 2023

Voyager：结合大语言模型的创新虚拟智能体 [译]

让我们欢迎 Voyager 的加入——这是 Minecraft 游戏中首个以大语言模型（LLM）为核心的虚拟学习智能体。它能够不断地探索虚拟世界，自主掌握各种技能，并在没有人为介入的情况下，不断做出新的发现。Voyager 的核心由三部分组成：1) 一个自动优化探索路径的课程设计，2) 一个持续扩展的技能库，该库用可执行代码存储和调用复杂行为，3) 一种新型的迭代提示机制，通过融入环境反馈、执行错误和自我核验来不断优化程序。Voyager 通过所谓的黑箱查询与 GPT-4 进行交互，从而免去了对模型参数细微调整的需求。Voyager 所发展的技能不仅能跨越时间使用，还易于解释和组合，这显著加速了智能体的学习能力，同时有效减少了所谓的灾难性遗忘现象。从实践效果来看，Voyager 展现出了卓越的在场景中的终身学习能力，并在 Minecraft 游戏中展示了超群的技能。与以往最好的技术相比，它获得的独特物品多出了 $$3.3\times$$，旅行的距离也增加了 $$2.3\times$$，而在解锁关键的技术树里程碑方面，速度更是快了多达 $$15.3\times$$。Voyager 甚至能够在全新的 Minecraft 世界中，利用其学习的技能库，从零开始解决新的任务，而其他技术在这方面则显得力不从心。

November 3, 2023

创新输入法：引领输入技术的未来潮流 [译]

自从 ChatGPT 面世以来，生成式模型在语言处理的诸多方面取得了突破性的进展，已经成为众多自然语言处理任务的首选方法。然而，这些模型在输入技术领域的潜力还远未被完全挖掘。当前很多基于神经网络的技术已经开始应用于中文输入法引擎的构建过程中。以往研究往往默认用户输入的拼音无误，只关注拼音转汉字（P2C）的转换任务，这远远不能满足用户的实际需要。而且，这些研究也未能有效利用用户反馈来改善模型并提供更为个性化的服务。在我们的研究中，我们推出了一个创新的输入范式，名为 GeneInput。它利用提示指令来应对各种输入情境，并结合智能辅助输入功能，通过用户的实时反馈持续优化模型，为用户带来定制化的输入体验。我们的实验结果显示，GeneInput 在全键序列到字符转换（FK2C）任务上首次实现了业界领先水平。我们还开发了一种新的奖励模型训练方法，不再依赖于繁杂的手工注释，并且在智能联想和对话辅助任务中的表现甚至超越了 GPT-4。GeneInput 不仅性能优越，而且在鲁棒性、扩展性和在线学习方面也都显示出了比传统输入法更加出色的能力。

November 3, 2023

探索提示工程的多彩世界 [译]

提示工程是一门让我们能够在不改变模型本身的情况下指导大语言模型（LLM）行为的技术。随着越来越多为不同场景设计的提示的出现，我们越来越需要一套系统来帮助我们管理这些提示，以便更容易地找到、共享和优化它们。为此，我们在一个月前推出了 LangChain Hub，一个集浏览社区提示和管理个人提示于一体的平台。接下来，我们将带你了解自从该平台上线以来，我们观察到的提示工程领域的几个主要趋势，并分享一些我们认为特别有趣的案例。

November 2, 2023

激发创造力：将语言模型打造成层次化策略，提升解决复杂问题的探索效率 [译]

虽然大语言模型（LLMs）已经取得了令人瞩目的进展，但它们在处理一些复杂的推理问题时还是会遇到不少困难。目前的解决方案主要是通过挖掘详细和底层的推理链条。但是，这样的方法在寻找解决方案的过程中依然受到了限制，使得正确答案在庞大的可能性中难以脱颖而出。在这项研究中，我们通过上下文学习，把大语言模型构建成一个层次化的策略，从而激发出了其在多样化问题解决策略探索上的创造性潜能。这个层次化策略包含了两个部分：一个能够提出多种高层问题解决策略作为启示的“领导者”，以及一个根据领导者给出的高层指令来执行详细问题解决过程的“执行者”。执行者会以领导者的指示为蓝本，探索多条可能的推理路径来攻克问题，并为每个领导者的建议生成一组可能的解决方案。此外，我们还提出了一种高效且有效的基于锦标赛的方法来从这些探索出来的解决方案中挑选出最终的答案。我们的方法不仅能够给出有深度和启发性的建议，还能够拓宽问题解决策略的探索范围，从而在 MATH 数据集中的一些难题上取得更高的答案准确率。

November 2, 2023

利用语言模型模拟观众，让人际沟通更上一层楼 [译]

一种叫做 Zero-Shot-Context 的新方法，它可以在没有任何示例的情况下，自动提高翻译的质量。我们的实验结果显示，使用这种方法，GPT-3 的翻译效果得到了明显的提升，甚至可以与有示例提示的翻译相媲美。

November 2, 2023

在 CPU 上高效执行大语言模型的推理任务[译]

大语言模型（LLMs）已经在广泛的任务中展示出了令人瞩目的表现和巨大的发展潜力。然而，由于这些模型的参数量异常庞大，使得它们的部署变得相当具有挑战性，这不仅需要有足够大的内存空间，还需要有高速的内存传输带宽。在这篇文章中，我们提出了一种高效的方法，可以使得大语言模型的部署变得更为高效。我们支持自动化的仅限权重的 INT4 量化流程，并为此设计了一个特殊的、经过高度优化的大语言模型运行时环境，从而加速了在 CPU 上进行大语言模型推理的过程。我们的方法在多个流行的大语言模型，包括 Llama2、Llama 和 GPT-NeoX 上都展示出了广泛的适用性，并且在 CPU 上实现了极高的推理效率。

November 2, 2023

利用 LoRA 高效撤销 Llama 2-Chat 70B 的安全防护训练 [译]

AI 开发人员通常会使用安全校准程序来防止 AI 系统被滥用。举个例子，在 Meta 公司推出由一系列经过详细指导调整的大语言模型组成的 Llama 2-Chat 产品之前，他们在安全培训上进行了大量的投入，包括广泛的对抗测试和基于人类反馈的强化学习。然而，当攻击者能够接触到模型的权重数据时，安全训练能在多大程度上防止模型被滥用还是一个未知数。本研究通过对 Llama 2-Chat 公开权重进行隐蔽的微调，考察了语言模型安全训练的稳固性。我们采用了一种高效的微调方法——低秩适应（LoRA）。在预算不超过 $200、仅使用一块 GPU 的情况下，我们成功地破解了 7B、13B 和 70B 三种规模的 Llama 2-Chat 模型的安全训练。具体来说，我们的微调技术大幅降低了模型拒绝执行危险指令的次数。在两项拒绝标准测试中，我们对 70B Llama 2-Chat 模型的拒绝率降到了不足 1%。我们的微调方法在保持总体性能的同时，通过与 Llama 2-Chat 在两个标准测试中的对比，验证了模型性能的保持。此外，我们还展示了一些由我们的模型生成的危险输出示例。尽管对当前模型潜在风险的范围还存在很大的不确定性，但未来的模型可能会拥有更为危险的能力，比如侵入关键基础设施、制造危险生物武器或自主复制适应新环境的能力。我们的研究表明，隐蔽微调是一种切实可行且有效的方法，因此我们认为，在进行模型权重发布的风险评估时，评价微调带来的风险应当成为核心内容。

November 1, 2023

从错误中学习：让大语言模型更擅长推理 [译]

近期，大语言模型（LLM）展示出在解决数学题目上的出色推理能力。为了让这种能力更上一层楼，我们提出了“从错误中学习”（LeMa）这一方法，它借鉴了人类学习过程中的机制。就像一个解题失败的学生会反思自己的错误并学会如何改正一样，LeMa 也通过这样的错误驱动学习过程对 LLM 进行了微调。我们首先从不同的 LLM 中挑选出错误的推理过程，然后使用 GPT-4 作为“纠错师”，负责识别错误的环节、解释错误发生的原因，并对错误进行改正，最终得出正确答案。实验结果表明，LeMa 的确能够提升 LLM 的性能：在五个不同的 LLM 和两个数学推理任务中，LeMa 都比单独使用 CoT 数据进行微调表现得更好。尤其值得一提的是，LeMa 甚至能够提升专业 LLM 如 WizardMath 和 MetaMath 的性能，在 GSM8K 任务上达到了 85.4% 的 pass@1 准确率，在 MATH 任务上达到了 27.1% 的准确率，这些成绩超过了这些困难任务上其他非执行开源模型所能达到的最先进水平。

November 1, 2023

脑波解码：向着实时重现视觉感知迈进 [译]

在最近五年里，生成型和基础型人工智能系统在解读大脑活动方面取得了巨大进步。特别是在视觉感知方面，现如今我们能够通过功能性磁共振成像（fMRI）技术进行高度精确的解码。但是，这种技术的时间分辨率较低（大约为 0.5 Hz），这严重限制了它在实时应用方面的能力。为了解决这一问题，我们提出了一种新的方法，即利用脑磁图（MEG）这种设备。MEG 能以极高的时间分辨率（大约为 5000 Hz）测量大脑活动。我们为此开发了一个基于 MEG 的解码模型，该模型通过对比学习和回归分析进行训练，包括三个主要部分：i) 从图像中获得的预训练嵌入，ii) 端到端训练的 MEG 模块，以及 iii) 预训练的图像生成模块。我们的实验结果显示：首先，我们的 MEG 解码器在图像检索任务上的表现比传统的线性解码器提升了 7 倍。其次，我们发现利用 DINOv2（一种新型基础图像模型）能够更好地解码大脑对图像的反应，尤其是在反应较晚的阶段。第三，通过 MEG 信号，我们主要能够提取到高级的视觉特征，而当我们将同样的方法应用到 7T fMRI 数据时，我们还能够提取到低级的视觉特征。总的来说，这些发现为我们在实时解码人脑视觉过程方面迈出了重要的一步。

November 1, 2023

Musk 收购一年后，X（原 Twitter）的各项指标都在下滑 [译]

如果 Elon Musk 的目的是提升自己社交媒体主页的访问量，他完全有更经济、更简便的方法。在他用 440 亿美元收购 Twitter（近期更名为 X）快一年的时间里，我们唯一能看到的正面表现就是他个人主页 twitter.com/elonmusk/ 的访问量有所增加。

October 31, 2023

为何你不应该成为经理的 17 个理由 [译]

这个问题的提法从极为正面的“谁会不想带领一个团队呢？”到极为负面的“有谁会愿意去管理一个团队呢？”应有尽有。所以我决定写篇文章，列举一些不当经理的理由。

October 31, 2023

大语言模型的“破解”研究：仅需二十次尝试 [译]

随着人们越来越关注如何让大语言模型（LLMs）与人类的价值观保持一致，人们发现这些模型很容易受到“破解”攻击的威胁，这种攻击会诱使语言模型绕开其安全保护措施。因此，识别并解决这些潜在漏洞对于防止模型被滥用至关重要。为了实现这一目标，我们提出了一种名为“提示自动迭代细化”（PAIR）的算法，这种算法能够仅通过黑盒方式与大语言模型通信，生成语义破解。PAIR 算法的设计灵感来源于社会工程攻击，它能够利用一个“攻击者”语言模型自动对另一个目标语言模型进行破解，无需人工干预。通过这种方式，攻击者模型会反复向目标模型发起查询，不断更新和精细调整破解方案。根据我们的实验证明，PAIR 在大多数情况下能够在不到二十次的查询中成功破解目标模型，效率比现有算法高出许多个数量级。此外，无论是在开源还是闭源的大语言模型上，PAIR 都展现出了极高的破解成功率和良好的迁移性能，其中就包括了 GPT-3.5/4、Vicuna 和 PaLM-2 这样的模型。

October 31, 2023

利用语言模型挖掘人类偏好 [译]

语言模型（LMs）能够通过标注好的示例或者自然语言的提示来指引完成特定任务。但是，找到合适的示例或者编写有效的提示可能非常具有挑战性，特别是在那些涉及到不常见的边缘情况、需要准确表达模糊偏好，或者要求对语言模型行为有精确认识的任务中。我们提出了一种思路：利用语言模型*自身*来引导任务设定的过程。

October 30, 2023

CODEFUSION：代码生成领域的创新预训练模型 [译]

试想一个只能修改他们最新写的那一行代码的程序员，他们需要反复从头开始写代码，直到写对为止——这听起来是不是很费劲？传统的自然语言转代码的自回归模型也面临着类似的困境，一旦生成了代码，就很难再回头修改。为此，我们推出了 CODEFUSION，这是一个突破性的预训练扩散代码生成模型。它能够在自然语言的引导下，反复优化整段代码，直到生成高质量的程序代码。我们在 Bash、Python 以及 Microsoft Excel 的条件格式规则转换任务上对 CODEFUSION 进行了全面测试。测试结果令人振奋：尽管 CODEFUSION 只有 75M 的参数，但它在 top-1 准确率上与最先进且参数量高达 350M–175B 的自回归系统不相上下，而在 top-3 和 top-5 准确率上更是超越对手，彰显了它在保证代码质量的同时，还能提供丰富多样的代码生成选项的卓越能力。

October 30, 2023

GPT-4 不懂自己哪里错了：对解决问题时迭代提示法的深入分析 [译]

大家对大语言模型（LLMs）到底能否具备推理能力一直有很大的争议。虽然一开始人们非常乐观，认为模型的规模越大，推理能力就会自然而然地显现出来，但众多反例的出现，从简单的乘法运算到计划问题，都让这种乐观心态受到了挑战。尽管如此，许多人仍然坚信大语言模型能够对自己的答案进行自我批判，并通过迭代的方式不断完善解决方案。这种信仰似乎是建立在这样一个前提上：验证一个答案的正确性应该比产生答案更为简单。这是计算复杂性领域的一个经典观点，但如果 LLMs 主要进行的是近似检索的活动，那么这个观点对它们来说应该是不相关的。

October 29, 2023

PromptAgent：借助语言模型进行策略性规划，达到专家级的提示优化 [译]

我们引入了 PromptAgent，这是一种能够独立创建出与专家亲手打造的提示同样优质的优化方法。PromptAgent 把提示优化当作一个策略规划问题来处理，并运用了一种植根于蒙特卡罗树搜索的算法，巧妙地规划并探索专家级提示的可能性。

October 27, 2023

退一步，看得更远：通过抽象引发大语言模型中的推理 [译]

我们为大家介绍了一个称为“退一步提示法（Step-Back Prompting）”的新技巧，能让语言模型通过抽象思考，从具体信息中找到核心观念和基础原理。凭借这些核心观念和原理，语言模型在逻辑推理上的表现得到了显著的提升。

October 26, 2023

2023 年最佳发明 [译]

改变我们生活方式的 200 项创新

October 25, 2023

深入分析 GPTs 在机器翻译中的上下文学习[译]

October 25, 2023

如何通过“链式验证”降低大语言模型的“幻觉” [译]

大语言模型偶尔会生成看似真实但实际上是错误的信息，这种情况被称为“幻觉”。我们研究了模型如何自我纠错。我们提出了一个名为“链式验证 (CoVe)”的方法：模型首先给出初步回答，然后制定问题来核实答案，并确保每个问题的回答不受其他回答的影响，最后输出经过核实的答案。实验结果显示，这种方法有效地减少了在不同任务中产生的误导性信息。

October 16, 2023

多模态和多模态大模型 (LMM)[译]

以前，我们的机器学习模型一般都只处理一种类型的数据，比如只处理文本、图像或音频。但是，想想我们人类的大脑。我们不仅仅读写文字，还可以看图、看视频，听音乐，还能够辨识各种不同的声音。所以，为了让 AI 更接近真实世界，处理多种类型的数据显得非常重要。

October 15, 2023

AI 研究岗位的市场现状（以及我所经历的）[译]

工作岗位虽然众多，但找到真正适合自己的位置依然困难重重。

October 12, 2023

帮你成为更优秀开发者的软技能书单[译]

虽然作为开发者，我们总在追求技术上的进步，但同样重要的"软技能"也不能被忽略。我读了大约 40 本这样的书，现在想和你们分享一些最有价值的经验，帮助我们在技术和管理领域更上一层楼。

October 10, 2023

探究 10 倍效能工程师的神话与杰出工程师的真实面貌 [译]

October 10, 2023

小语种成功“破解”了 GPT-4 的限制[译]

AI 安全培训和大语言模型（LLMs）的红队实验是为了预防生成不安全内容。然而，我们发现，由于安全训练数据在不同语言之间的不平衡，这些安全机制在跨语言应用时存在脆弱性。我们证明，通过将危险的英语输入转换为使用率较低的语言，就可以成功规遍 GPT-4 的安全屏障。

October 6, 2023

大语言模型的类比推理能力[译]

“思维链”（CoT）提示法让语言模型在各类推理任务上表现优异，但是，这通常需要对推理过程的实例进行标记。在这个研究中，我们推出了一种新颖的提示技巧，名为“类推提示法”，旨在自动引领大语言模型进行推理。

October 3, 2023

多模态大模型（LMMs）的曙光：初探 GPT-4V(ision)[译]

多模态大模型（LMMs）不仅拥有大语言模型（LLMs）的特点，还拓宽了其多感官技能，例如视觉理解，从而实现了更强的通用智能。本文深入探索并分析了最新的 GPT-4V(ision) 模型，旨在加深我们对 LMMs 的认识。我们的分析重点是 GPT-4V 能够完成的各种有趣任务，通过一系列精心设计的测试样本，来检验 GPT-4V 能力的质量和通用性，以及它所支持的输入和工作方式，还有有效启动模型的方法。在探索 GPT-4V 的过程中，我们整理了一系列涉及多个领域和任务的定性样本。这些样本的观察结果表明，GPT-4V 能够处理任意混合的多模态输入，并且其功能的通用性使其成为一个强大的多模态通用系统。此外，GPT-4V 独特的识别输入图像上绘制的视觉标记的能力，为发展新的人机交互方式，比如视觉参考提示，提供了可能。报告最后深入讨论了基于 GPT-4V 系统的新兴应用场景和未来研究方向。我们希望这一初步的探索能够启发未来关于多模态任务制定的下一代研究，发掘和强化 LMMs 以解决现实世界问题的新方法，以及对多模态基础模型有更深的理解。

October 2, 2023

基于大语言模型的智能代理[译]

利用大语言模型（LLM）作为核心驱动的智能代理是一个极富创意的概念。有一些令人印象深刻的概念验证示例，比如 AutoGPT、GPT-Engineer 和 BabyAGI，都为我们展示了巨大的可能性。LLM 不仅可以创作流畅的文本、故事、散文和代码，更重要的是，它可以成为解决各种问题的强大工具。

July 23, 2023

高效大语言模型推理 [译]

近来，我频繁地探究如何高效地运用大语言模型 (LLM)。设想这样一个场景：你的老板对你说：“嘿，Finbarr，我们快破产了，因为我们把所有投资者的钱都花在了支持我们那个 300 亿参数、模仿 John Kenneth Galbraith 风格说唱的模型的 GPU 上。我们该怎么办？”

January 5, 2023

2024 AI 预测 [译]

既有亮点也有挑战 —— 并伴随着诸多炒作。伴随着假期的结束，我们满载热情回归，为大家带来 2024 年的最新观点！

January 5, 2023