人工智能(AI)领域常见术语大全/核心关键词大全

人工智能(AI)领域常见术语大全/核心关键词大全

奥德彪学习网汇总人工智能(AI)领域核心关键词,按“基础概念与理论、关键技术与算法、大模型与前沿方向、应用场景与技术、伦理与安全”五大核心维度分类,附简明易懂的释义,涵盖AI领域从基础到前沿、从技术到应用的核心内容,适用于入门学习、资料查阅、知识梳理等场景,帮助快速掌握AI领域核心知识框架。

一、基础概念与理论

人工智能(Artificial Intelligence, AI)

使计算机系统模拟人类智能(如学习、推理、感知、决策)的技术科学,目标是构建能完成复杂任务的智能体,是整个领域的核心统称。

通用人工智能(Artificial General Intelligence, AGI)

具备人类级别的通用智能,能理解、学习并灵活应用多领域知识解决各类问题的AI,目前尚未实现,是AI领域的长期目标。

弱人工智能(Narrow AI)

仅针对特定任务设计的AI(如语音识别、图像分类、智能推荐),不具备通用智能和自主思考能力,是当前主流的AI形态。

机器学习Machine Learning, ML)

AI的核心子领域,核心逻辑是“从经验中学习”,通过向模型输入大量数据进行训练,使系统自动改进性能、优化决策,无需人类显式编程。

深度学习(Deep Learning, DL)

机器学习的重要子领域,基于深层神经网络(通常包含多个隐藏层)构建模型,擅长处理图像、语音、文本等高维数据,是当前AI技术突破的核心驱动力。

神经网络(Neural Network, NN)

受生物神经元结构启发的计算模型,由多层节点(神经元)通过连接权重构成,通过调整节点间的连接权重,捕捉数据中的内在模式和规律,是深度学习的基础。

监督学习(Supervised Learning)

机器学习的主要训练方式之一,训练数据包含明确的“输入-标签对”(如“猫的图片+猫的标签”“房价数据+房价标签”),模型核心任务是学习输入与标签之间的映射关系,常用于分类、回归任务。

无监督学习(Unsupervised Learning)

机器学习的主要训练方式之一,训练数据无任何标签信息,模型需自主探索数据的内在结构、聚类规律或分布特征,常用于数据聚类、降维、异常检测等场景。

强化学习(Reinforcement Learning, RL)

机器学习的重要分支,核心是“智能体(Agent)与环境的交互”,智能体通过执行动作获得环境反馈的奖励或惩罚信号,不断调整自身策略,以最大化长期累积奖励,适用于游戏AI、机器人控制、自动驾驶等场景。

半监督学习(Semi-Supervised Learning)

结合监督学习与无监督学习的训练方式,使用少量有标签数据和大量无标签数据共同训练模型,既能保证模型性能,又能降低数据标注的成本,常见于数据标注难度高、成本高的场景(如医学影像分析)。

自监督学习(Self-Supervised Learning)

无监督学习的延伸的进阶形式,无需人工标注标签,模型从无标签数据中自动生成“伪标签”(如遮挡部分图像预测完整图像、通过上下文预测缺失文本),以伪标签作为监督信号完成训练,是近年NLP、CV领域技术突破的关键。

迁移学习(Transfer Learning)

高效训练模型的核心技术,将在大规模数据上预训练好的模型(如ImageNet上训练的图像模型)的知识和参数,迁移到新的小规模数据集任务中,减少目标任务的数据需求和训练成本,广泛应用于各类AI任务。

联邦学习(Federated Learning)

分布式机器学习框架,核心优势是“数据不出境”,模型在各本地设备(如手机、终端服务器)上独立训练,仅将模型参数更新结果上传至中央服务器聚合,有效保护用户隐私,适用于手机键盘词预测、医疗数据联合训练等场景。

小样本学习(Few-shot Learning)/ 零样本学习(Zero-shot Learning)

针对“数据稀缺”场景的机器学习技术,小样本学习仅需极少量标注样本即可完成新任务训练,零样本学习无需任何标注样本,依赖模型的泛化能力或先验知识,是接近人类学习模式的重要方向。

二、关键技术与算法

卷积神经网络(Convolutional Neural Network, CNN)

专为处理网格结构数据(如图像、视频、语音频谱)设计的深度学习模型,通过卷积层、池化层提取数据的局部特征(如图像的边缘、纹理),逐步组合为全局特征,广泛应用于图像分类、目标检测、人脸识别等CV任务。

循环神经网络(Recurrent Neural Network, RNN)

用于处理序列数据(如文本、时间序列、语音)的神经网络模型,通过循环结构保留历史输入信息,捕捉序列数据的时序依赖关系,但存在长程梯度消失问题,难以处理长序列数据。

长短期记忆网络(Long Short-Term Memory, LSTM)

RNN的核心改进版本,通过输入门、遗忘门、输出门的门控机制,选择性保留有用的历史信息、遗忘无关信息,有效解决RNN的长程依赖问题,适用于语言建模、机器翻译、时间序列预测等任务。

Transformer

基于自注意力机制构建的模型架构,彻底替代RNN、CNN的序列处理方式,支持并行计算,能高效捕捉序列内的全局依赖关系,是当前NLP、多模态任务的核心架构,GPT、BERT、CLIP等主流模型均基于此构建。

注意力机制(Attention Mechanism)

AI模型的核心优化技术,模拟人类“重点关注”的认知习惯,让模型在处理输入数据时,动态聚焦于关键部分(如翻译时关注源语言的对应词汇、图像识别时关注核心物体),提升模型处理效率和效果。

自注意力(Self-Attention)

注意力机制的核心延伸,计算序列内所有位置之间的依赖关系(如文本中每个词汇与其他所有词汇的关联),无需依赖循环或卷积结构,即可捕捉全局上下文信息,是Transformer架构的核心。

生成对抗网络(Generative Adversarial Network, GAN)

经典生成模型,由生成器(Generator)和判别器(Discriminator)两个子模型通过博弈方式训练:生成器负责伪造与真实数据相似的数据(如图像、文本),判别器负责区分数据的真假,最终使生成器能生成高保真度的虚假数据,适用于图像生成、风格迁移等场景。

变分自动编码器(Variational Autoencoder, VAE)

基于概率模型的生成模型,由编码器和解码器组成:编码器将输入数据映射到潜在空间的概率分布,解码器从该概率分布中采样,生成与原始数据相似的新数据,核心优势是能捕捉数据的统计规律,适用于数据生成、降维等场景。

扩散模型(Diffusion model)

当前主流的生成模型,核心逻辑是“逐步去噪”:前向过程中逐步向真实数据添加噪声,直至数据完全混乱;反向过程中学习从噪声中逐步去噪,还原出真实数据,能生成高质量的图像、文本等内容,DALL·E 2、Stable Diffusion均基于此技术。

梯度下降(Gradient Descent)

AI模型的核心优化算法,核心逻辑是沿损失函数的梯度反方向,逐步调整模型参数,最小化模型的预测误差,常用变种包括随机梯度下降(SGD)、Adam、RMSprop等,是所有深度学习模型训练的基础。

反向传播(Backpropagation)

神经网络的核心训练算法,通过计算模型输出的损失函数对各层参数的梯度,从输出层反向传递至输入层,指导模型参数的更新,是深度学习模型能“学习”的关键。

过拟合(Overfitting)

模型训练中的常见问题,指模型过度“记忆”训练数据中的细节和噪声,而非学习数据的通用规律,导致模型在训练数据上表现极佳,但在未见过的测试数据上泛化能力极差。

欠拟合(Underfitting)

模型训练中的常见问题,指模型复杂度不足,或训练不充分,无法捕捉数据的基本模式和规律,导致模型在训练数据和测试数据上的表现均较差。

正则化(Regularization)

用于防止模型过拟合的核心技术,通过约束模型的复杂度(如L1正则化、L2正则化)、随机丢弃部分节点(Dropout)、提前停止训练(早停)等方式,提升模型的泛化能力。

三、大模型与前沿方向

大语言模型(Large Language Model, LLM)

基于海量文本数据训练的超大规模Transformer模型,参数规模通常达十亿级以上,具备强大的语言理解、文本生成、逻辑推理能力,是当前AI领域的核心热点,代表模型有GPT-4、PaLM、LLaMA等。

GPT(Generative Pre-trained Transformer)

由OpenAI开发的生成式预训练Transformer系列模型,以自回归方式生成连贯文本,通过预训练+微调的方式,支持对话、代码生成、文本创作等多种任务,是当前最具影响力的LLM之一,代表版本有GPT-3.5、GPT-4。

BERT(Bidirectional Encoder Representations from Transformers)

由Google开发的双向Transformer编码器模型,通过掩码语言建模(MLM)方式预训练,擅长文本理解任务(如情感分析、问答系统、文本分类),是NLP领域文本理解方向的基础模型。

多模态模型(Multimodal Model)

能融合、处理多种数据类型(如文本、图像、音频、视频)的AI模型,支持跨模态的理解与生成(如图文互转、音视频理解),打破了单一模态的限制,代表模型有CLIP、GPT-4V、DALL·E 3。

提示学习(Prompt Learning)

大模型的高效使用技术,无需微调整个大模型,通过设计自然语言提示(Prompt)引导大模型完成特定任务(如“总结以下文本:……”“请将这句话翻译成英文:……”),大幅降低大模型的使用门槛和训练成本。

指令微调(Instruction Tuning)

大模型优化的关键步骤,使用人类编写的多样化“指令-响应对”(如“指令:解释什么是AI;响应:……”)微调大模型,提升模型遵循复杂指令、适配多样化任务的能力,是ChatGPT等对话式AI的核心训练环节。

思维链(Chain of Thought, CoT)

提升大模型逻辑推理能力的提示技术,通过提示引导大模型生成中间推理步骤(如“解答这道数学题,步骤如下:1.……2.……”),让模型逐步拆解复杂问题、完成推理,显著提升数学计算、多步推理等复杂任务的表现。

涌现能力(Emergent Ability)

大模型的独特现象,指当大模型的参数规模、训练数据量超过某一阈值后,突然具备小模型不具备的能力(如少样本学习、逻辑推理、跨领域迁移),是通用人工智能(AGI)研究的重要观察现象。

对齐(Alignment)

AI伦理与安全领域的核心概念,指确保AI系统的目标、行为与人类的价值观、需求保持一致,避免AI产生有害输出、违背人类意愿,核心技术包括人类反馈强化学习(RLHF)。

人类反馈强化学习(Reinforcement Learning with Human Feedback, RLHF)

大模型对齐的核心技术,分为三步:1. 让大模型生成多个候选输出;2. 人类对候选输出进行偏好评分;3. 用评分训练奖励模型,再通过强化学习优化大模型,使模型输出更符合人类期望,是ChatGPT等对话模型的核心训练方法。

智能体(Agent

具备自主感知、决策、行动能力的AI实体,能理解环境、接收任务、执行动作、适应反馈,自主完成复杂的长期任务,代表案例有AutoGPT、具身智能机器人。

具身智能(Embodied AI)

AI的前沿方向,区别于纯文本、图像的“离身智能”,让智能体(如机器人)通过物理身体与真实世界交互,通过“感知-行动”闭环学习环境规律、提升任务能力,适用于机器人、自动驾驶等场景。

四、应用场景与技术

计算机视觉(Computer Vision, CV)

AI的核心应用分支,目标是让机器“看懂”图像和视频,核心技术包括图像分类、目标检测、语义分割、人脸识别、图像生成等,广泛应用于安防监控、医疗影像分析、自动驾驶、人脸识别打卡等场景。

自然语言处理(Natural Language Processing, NLP)

AI的核心应用分支,目标是让机器理解、处理、生成人类语言(文本/语音),核心技术包括分词、情感分析、机器翻译、问答系统、文本摘要、对话生成等,应用于聊天机器人、智能客服、机器翻译、语音转文字等场景。

语音识别(Automatic Speech Recognition, ASR)

NLP的重要细分技术,将人类的语音信号转换为文本信息,实现“语音转文字”,核心应用包括Siri、微信语音转文字、智能音箱、会议纪要自动生成等。

语音合成(Text-to-Speech, TTS)

NLP的重要细分技术,将文本信息转换为自然、流畅的人类语音,核心应用包括导航播报、有声书、智能客服语音回复、语音助手播报等。

目标检测(Object Detection)

CV的核心技术之一,既能定位图像/视频中多个物体的具体位置,又能识别物体的类别(如“图像中有一只猫,位置在左上角”),代表算法有YOLO、Faster R-CNN,应用于监控安防、自动驾驶、人脸检测等场景。

语义分割(Semantic Segmentation)

CV的核心技术之一,为图像中的每个像素分配对应的类别标签(如区分道路、行人、车辆、建筑物),实现对图像的精细化分割,是自动驾驶环境感知、医学影像分析(如病灶分割)的核心技术。

推荐系统(Recommendation System)

AI的重要应用场景,基于用户的历史行为、兴趣偏好,结合协同过滤、深度学习(如Wide & Deep)等技术,为用户推荐个性化内容(如电商商品、视频、音乐、新闻),广泛应用于抖音、淘宝、美团等平台。

自动驾驶(Autonomous Driving)

AI的综合应用场景,融合CV、传感器(激光雷达、摄像头、毫米波雷达)、强化学习、路径规划等多种技术,实现车辆自主感知环境、躲避障碍物、规划路径、控制行驶,代表企业有特斯拉、Waymo。

AI for Science(AI4Science)

AI与基础科学的交叉领域,利用AI技术驱动科学研究,加速科学发现,核心应用包括蛋白质结构预测(如AlphaFold)、材料设计、药物研发、天体物理分析、气象预测等。

AIGC(AI Generated Content)

AI的热门应用方向,指利用AI模型自动生成各类内容,涵盖文本、图像、视频、音频、代码、设计稿等,典型工具包括ChatGPT(文本生成)、MidJourney(图像生成)、Runway(视频生成)、GitHub Copilot(代码生成)。

五、伦理与安全

可解释性AI(Explainable AI, XAI)

AI安全领域的核心技术,目标是让AI模型的决策过程可被人类理解、追踪、解释(如通过可视化、自然语言说明“模型为何做出该判断”),提升AI模型的可信度和透明度,尤其适用于医疗、法律、金融等关键领域。

公平性(Fairness)

AI伦理的核心议题,指AI模型在决策过程中,避免对特定群体(如性别、种族、年龄、地域)产生偏见或歧视(如招聘模型歧视女性、贷款模型歧视少数族裔),确保模型对所有群体的公平性。

鲁棒性(Robustness)

AI模型的核心安全指标,指模型在面对噪声数据、对抗攻击(如对抗样本)、分布外数据(未见过的数据类型)时,仍能保持稳定的性能,不出现大幅下降或错误决策。

隐私计算(Privacy-Preserving Computation)

平衡数据利用与隐私保护的核心技术,在不泄露原始数据的前提下,完成数据计算和模型训练,核心技术包括联邦学习、安全多方计算、差分隐私等,适用于医疗、金融、政务等数据敏感领域。

AI伦理(AI Ethics)

研究AI技术的社会影响、伦理规范和责任边界的领域,核心议题包括AI公平性、透明度、责任划分、隐私保护、有害输出防控等,相关规范包括欧盟《AI法案》、各国AI伦理准则等,引导AI技术正向发展。
阅读剩余