自然语言处理

概述

参考：
Wiki, Natural_language_processing

Natural Language Processing(自然语言处理，简称 NLP) 是语言学、计算机科学和人工智能的跨学科领域，主要关注计算机与人类语言之间的交互，特别是如何编写程序来处理和分析大量的自然语言数据。目标是让计算机能够“理解”文档的内容，包括其中的语言上下文细微差别。技术可以准确提取文档中包含的信息和见解，以及对文档本身进行分类和组织。

语言模型

参考：
Wiki, Language_model

Language model(语言模型) 是单词序列的概率分布。

通过语言模型，才可以实现自然语言处理。NLP 程序都会使用语言模型，我们将自然语言作为输入，传递给语言模型，语言模型将会预测其将要输出的每一个单词的出现概率，然后逐一输出这些单词。

想要训练出来一个良好的语言模型，通常会需要类似 Transformers 这种机器学习模型。

Large language model

Large language model(大语言模型，简称 LLM) 是由具有许多参数（通常为数十亿或更多权重）的神经网络组成的语言模型，使用自我监督学习对大量未标记文本进行训练。LLM 在 2018 年左右出现，并在各种任务中表现出色。这已经将自然语言处理研究的重点从之前为特定任务训练专门的监督模型的范式转移了。

我们经常看到 LLM 实现的模型后面有 XB 的样式，其中 B 表示 Billions(十亿)，这个 XB 指的就是参数的数量。比如 6B 表示 60 亿参数。

常见模型

参考：
Wiki, Large_language_model-大语言模型列表
公众号-OSC 开源社区，大预言模型精选开源项目

我们常见的语言模型在现阶段（2023.5）可以简单分为如下几大类

BERT 系
- 类似完形填空，联系上下文直接给出空中的内容
GPT 系
- 一字一字推测的自回归模型。有 a 推测 b，然后根据 ab 推测 c，根据 abc 推测 d，以此类推
其他系

Bidirectional Encoder Representations from Transformers(来自 Transformers 的双向编码器表示，简称 BERT)

Generative Pre-trained Transformer(生成式预训练 Transformer，简称 GPT)

General Language Model(通用语言模型，简称 GLM) # 清华开源

GitHub 项目，THUDM/GLM 框架
GitHub 项目，THUDM/ChatGLM3 # 已经衍化到第三代。
实践项目
- THUDM/ChatGLM-6B
  - 量化后的模型需要使用到 CPU 处理一些数据，需要安装 gcc 与 openmp(有的 GCC 的整合包中包含了 openmp)。
  - TODO: 有没有办法不用 CPU？
- THUDM/GLM-130B
具体应用: 智谱清言

Large Language Model Meta AI(简称 LLaMA)

MOSS # 复旦开源，已停止更新

反馈

此页是否对你有帮助？

Glad to hear it! Please tell us how we can improve.

Sorry to hear that. Please tell us how we can improve.

最后修改 July 26, 2025: programming (b1d596fa)