≡ AI百科
什么是人工智能对齐(AI Alignment) – AI百科知识
人工智能对齐(AI Alignment)是指确保人工智能系统的行为与人类的意图和价值观保持一致的领域。核心目标可以概括为四个关键原则:鲁棒性(Robustness)、可解释性(Interpretability)、可控性(Controllability)和道德性(Ethicality),简称为RICE原则。这个领域不仅关注避免AI系统的不良行为,更重要的是确保其在执行任务时符合人类的意图和价值观。AI对齐的研究可以分为两个关键组成部分:前向对齐和后向对齐。前向对齐涉及通过训练使AI系统对齐,后向对齐则关注在系统部署后评估和保证其对齐性。当前的研究和实践将这些目标纳入了反馈学习、分布偏移学习、保证和治理等四个领域。