LLaMA：修订间差异

删除的内容添加的内容

行内

2023年8月26日 (六) 16:28的版本

LLaMA（英語：Large Language Model Meta AI，直译：大语言模型元AI）是Meta AI公司於2023年2月發布的大型語言模型。它訓練了各種模型，這些模型的參數從70億到650億不等。LLaMA的開發人員報告說，LLaMA運行的130億參數模型在大多數NLP基準測試中的性能超過了更大的、具有1750億參數的GPT-3提供的模型，且LLaMA的模型可以與PaLM和Chinchilla等最先進的模型競爭^[1]。雖然其他強大的大語言模型通常只能通過有限的API訪問，但Meta在非商業許可的情況下發布了LLaMA的模型權重，供研究人員參考和使用。^[2]^[3] ^[4] 2023年7月，Meta推出 Llama 2，这是一种可用于商业应用的开源 AI 模型。^[5]

LLaMA2

2023年7月，Facebook母公司Meta推出了LLaMA2，在人工智能 (AI) 行业掀起波澜，LLaMA2是一种开源大语言模型 (LLM)，旨在挑战大型科技竞争对手的限制性做法。Meta免费发布 LLaMA2背后的代码和数据，使世界各地的研究人员能够利用和改进该技术。 Meta的首席执行官马克·扎克伯格一直直言不讳地强调开源软件对于刺激创新的重要性。^[6]^[5]

Meta 训练并发布了三种模型大小的 Llama 2：7、13 和 700 亿个参数。模型架构与 Llama 1 模型基本保持不变，但用于训练基础模型的数据增加了 40%。随附的预印本还提到了一个具有 34B 参数的模型，该模型可能在未来满足安全目标后发布。

Llama 2 包括基础模型和针对对话进行微调的模型，称为 Llama 2 - 聊天。与 Llama 1 进一步不同的是，所有模型都附带权重，并且对于许多商业用例都是免费的。然而，由于一些剩余的限制，Llama开源的描述受到了开源倡议组织（以维护开源定义而闻名）的争议。

Code Llama

2023年8月，Meta继发布用于生成文本、翻译语言和创建音频的人工智能模型之后，开源了 Code Llama。这是一个机器学习系统，可以用自然语言（特别是英语）生成和解释代码。可以免费商用和研究。

Code Llama是从Llama-2基础模型微调而来，共有三个版本：基础版、Python版、以及指令遵循。类似于 GitHub Copilot 和 Amazon CodeWhisperer，以及 StarCoder、StableCode 和 PolyCoder 等开源人工智能代码生成器，Code Llama 可以跨多种编程语言完成代码并调试现有代码，包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。^[7]

在训练 Code Llama 时，Meta 使用了与训练 Llama 2 相同的数据集——来自网络的公开可用资源的混合。但可以说，它的模型“强调”了包含代码的训练数据的子集。从本质上讲，Code Llama 比它的“父”模型 Llama 2 有更多的时间来学习代码和自然语言之间的关系。每个 Code Llama 模型的大小从 70 亿个参数到 340 亿个参数不等，均使用 5000 亿个代码标记以及与代码相关的数据进行训练。多个 Code Llama 模型可以将代码插入到现有代码中，并且所有模型都可以接受大约 100,000 个代码标记作为输入，而至少一个（70 亿个参数模型）可以在单个 GPU 上运行。（其他模型则需要更强大的硬件。）Meta 声称，340 亿个参数的模型是迄今为止所有开源代码生成器中性能最好的，也是参数数量最多的。^[7]

开源/复制

2023年4月17日，GitHub的Together启动了一个名为 RedPajama 的项目，以复制和分发LLaMA数据集的开源版本。^[8]^[9]

外部連結

LLaMA2 Chatbot

参见

参考资料

^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. LLaMA: Open and Efficient Foundation Language Models. 2023. arXiv:2302.13971  [cs.CL].
^ Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI. 24 February 2023.
^ Vincent, James. Meta's powerful AI language model has leaked online — what happens now?. The Verge. 8 March 2023.
^ 差一步称霸AI：历史进程中的扎克伯格, 远川研究所, 澎湃.
^ ^5.0 ^5.1 Meta launches Llama 2, a source-available AI model that allows commercial applications.
^ LLaMA 2: How to access and use Meta’s versatile open-source chatbot right now.
^ ^7.0 ^7.1 Meta releases Code Llama, a code-generating AI model, Kyle Wiggers, August 24, 2023 URL=https://techcrunch.com/2023/08/24/meta-releases-code-llama-a-code-generating-ai-model/
^ RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset. GitHub. Together. [4 May 2023].
^ RedPajama-Data-1T. Hugging Face. Together. [4 May 2023].

[paper-1] Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. LLaMA: Open and Efficient Foundation Language Models. 2023. arXiv:2302.13971  [cs.CL].

[blog-2] Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI. 24 February 2023.

[verge-leak-3] Vincent, James. Meta's powerful AI language model has leaked online — what happens now?. The Verge. 8 March 2023.

[差一步称霸AI-4] 差一步称霸AI：历史进程中的扎克伯格, 远川研究所, 澎湃.

[llama-2-5] 5.0 ^5.1 Meta launches Llama 2, a source-available AI model that allows commercial applications.

[llama-2_chatbot-6] LLaMA 2: How to access and use Meta’s versatile open-source chatbot right now.

[CodeLlama-7] 7.0 ^7.1 Meta releases Code Llama, a code-generating AI model, Kyle Wiggers, August 24, 2023 URL=https://techcrunch.com/2023/08/24/meta-releases-code-llama-a-code-generating-ai-model/

[red-pajama-8] RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset. GitHub. Together. [4 May 2023].

[red-pajama-download-9] RedPajama-Data-1T. Hugging Face. Together. [4 May 2023].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

@@ 第11行： / 第11行： @@
 == Code Llama ==
-年8月，[[Meta]]继发布用于生成文本、翻译语言和创建音频的人工智能模型之后，开源了 Code Llama。这是一个机器学习系统，可以用自然语言（特别是英语）生成和解释代码。 类似于 GitHub Copilot 和 Amazon CodeWhisperer，以及 StarCoder、StableCode 和 PolyCoder 等开源人工智能代码生成器，Code Llama 可以跨多种编程语言完成代码并调试现有代码，包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。<ref name=CodeLlama>Meta releases Code Llama, a code-generating AI model,  Kyle Wiggers, August 24, 2023 URL=https://techcrunch.com/2023/08/24/meta-releases-code-llama-a-code-generating-ai-model/</ref>
+年8月，[[Meta]]继发布用于生成文本、翻译语言和创建音频的人工智能模型之后，开源了 Code Llama。这是一个机器学习系统，可以用自然语言（特别是英语）生成和解释代码。 可以免费商用和研究。
+Code Llama是从Llama-2基础模型微调而来，共有三个版本：基础版、Python版、以及指令遵循。 类似于 GitHub Copilot 和 Amazon CodeWhisperer，以及 StarCoder、StableCode 和 PolyCoder 等开源人工智能代码生成器，Code Llama 可以跨多种编程语言完成代码并调试现有代码，包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。<ref name=CodeLlama>Meta releases Code Llama, a code-generating AI model,  Kyle Wiggers, August 24, 2023 URL=https://techcrunch.com/2023/08/24/meta-releases-code-llama-a-code-generating-ai-model/</ref>
+在训练 Code Llama 时，Meta 使用了与训练 Llama 2 相同的数据集——来自网络的公开可用资源的混合。但可以说，它的模型“强调”了包含代码的训练数据的子集。从本质上讲，Code Llama 比它的“父”模型 Llama 2 有更多的时间来学习代码和自然语言之间的关系。每个 Code Llama 模型的大小从 70 亿个参数到 340 亿个参数不等，均使用 5000 亿个代码标记以及与代码相关的数据进行训练。多个 Code Llama 模型可以将代码插入到现有代码中，并且所有模型都可以接受大约 100,000 个代码标记作为输入，而至少一个（70 亿个参数模型）可以在单个 GPU 上运行。（其他模型则需要更强大的硬件。）[[Meta]] 声称，340 亿个参数的模型是迄今为止所有开源代码生成器中性能最好的，也是参数数量最多的。<ref name=CodeLlama/>
 == 开源/复制==