联系我们
在人工智能的浪潮中,Galileo Technologies Inc.再度引领风流,推出了一款名为AgenticEvaluations的新渠道,专门用于评价根据大言语模型驱动的AI署理体系的体现。这项新东西应对了AI署理所带来的杂乱性,旨在协助开发者更有效地处理这些体系所面临的多项应战。
AI署理体系,如智能谈天机器人或其他自主决议计划的程序,可以在有限的人类监控下进行多进程的规划、推理和使命履行。虽然这些体系在功率方面引发了很多等待,但署理体系的杂乱行为使得开发者很难了解其作业原理,尤其是在过错产生时。这就为其评价和优化带来了新的难题。
据Gartner的猜测,到2028年,估计将有33%的企业软件包括署理AI技能,而在2024年,这一份额还不到1%。明显,白菜白花的AI署理体系正在悄然改变着软件开发和测验的传统方法。但这种日子和作业的改变也代表着开发者有必要面临更为杂乱的模型和评价进程。
AgenticEvaluations渠道为处理这样一些问题供给了一种体系性的评价结构。它答应开发者检查从输入到手足无措的整个多进程署理进程,并经过简洁明了的可视化界面协助用户快速找到功率低下和潜在的过错。据悉,该渠道使用了专有的“LLM-as-a-Judge”评价目标,这种评价方法使用大言语模型来检查和判别使命,评价的准确率在93%到97%之间。
该渠道支撑多种盛行的开源AI结构,如LangGraph和CrewAI,现已对一切Galileo用户敞开。开发的人能根据挑选的言语模型进行多层次的评价,追寻本钱、推迟和过错,使其在杂乱的作业流程中可以坚持高效和一致性。此外,内置的警报体系和仪表盘为继续改善供给了方向感,协助开发者识别体系性问题,如东西调用失利或举动与指令不符。
现在,Galileo已成功筹措6800万美元的资金,为其技能的逐渐开展奠定了坚实基础。因而,能预见的是,AgenticEvaluations将为AI署理体系的开发与布置供给更高效的处理方案,一起也让开发者们在繁复的使命中找到一丝轻松。回来搜狐,检查更加多