苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：IT之家）

IT之家 7 月 24 日消息，科技媒体 NeoWin 今天（7 月 24 日）发布博文，报道称苹果公司携手剑桥大学，提出一种新的 AI 评估系统，通过引入外部验证工具增强 AI 评审员的能力，以提高评审质量。

在评估大语言模型（LLM）时，研究人员和开发者越来越多地借助 AI 力量，这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战，在长篇事实核查、高级编码和数学问题等复杂任务中，评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文，概述了一种新系统，通过为 AI 评审员配备外部验证工具，以提高其评审质量，从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性，面临挑战和偏见，而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的，它能够评估响应以确定是否需要外部工具，并使用正确的工具。每个评估都经过三个主要步骤：初始领域评估、工具使用和最终决策。

事实核查工具使用网络搜索来验证响应中的原子事实；代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性；数学核查工具是代码执行工具的一个专门版本，用于验证数学和算术运算。

如果发现没有工具对判断有帮助，系统将使用基线 LLM 注释器，以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

海量资讯、精准解读，尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

Most Discussed