来源:InfoWorld 作者: Andrew C. Oliver

大型语言模型已成为科技的最新锤子,但并非每个问题都是钉子。提交前请回答这些关键问题。
如果螺丝刀是由当今科技行业发明的,那么它将被广泛用于各种任务,包括锤钉。自ChatGPT首次亮相以来,对大型语言模型(LLM)的热情和反对越来越大。事实上,该技术的许多改编似乎被挪用,其能力被高调,因为它经常缺乏真实性。这并不是说LLM没有很多好的用途,但在全力以赴之前,你应该回答一些关键问题。
LLM会更好或至少与人类的反应相等吗?
有人喜欢那些不回答网站首页尚未发布的任何问题的客户服务聊天机器人吗?另一方面,与客户服务部门的人交谈,他只是阅读剧本,没有权力提供帮助,这同样令人沮丧。任何LLM的部署都应测试它是否等同于或更好于它所取代的聊天机器人或人类响应。
责任风险是多少?
在我们诉讼社会中,任何新工艺或技术都应根据其法律暴露的潜力进行评估。显然有谨慎的地方,如医疗、法律或金融,但LLM生成的答案引导人们接受误导性、不恰当或更糟的政策或建议呢?糟糕的公司政策往往会导致集体诉讼。通过增加客户互动的规模,训练不当或受限的LLM可能会造成更大的意外责任。
LLM真的更便宜吗?
当然,衡量您对ChatGPT等通用LLM的订阅和使用是很容易的,但更具体的定制系统可能会产生更高的成本,而不仅仅是计算能力。维护和调试系统的员工和其他基础设施呢?你可以以一位人工智能专家的价格雇佣很多客户服务代表。此外,ChatGPT和类似服务目前似乎得到了投资补贴。估计在某个时候,他们会想盈利,然后你的成本可能会上升。那个LLM真的更便宜吗?在你的系统生命周期中,它会保持这种价格吗?
你将如何维护它?
大多数企业LLM系统将在特定数据集中进行定制培训。LLM所依赖的神经网络的一个缺点是它们臭名昭著的难以调试。随着技术的进步,LLM可能会发展出修改、删除或“取消学习”它学到的错误知识的能力。但就目前而言,取消学习可能相当困难。定期更新 LLM 并消除不良回复的流程或程序是什么?
你的测试流程是什么?
LLM的一个关键好处是,您不必预测问题的每一个可能的排列,以便模型提供可信的答案。然而,“可信”一词并不意味着正确。至少应该测试最常见的问题和各种排列。如果您的LLM将取代人工或现有机器流程,人们今天提出的问题将是一个很好的数据集。
有句老谚语说出处可疑,大致翻译为“慢点,我赶时间”。并非所有东西都是LLM的绝佳用例,有充分的证据表明,热情正在超能力。然而,通过衡量质量和经济性,并提出一些体面的维护和测试程序,您可以使LLM成为许多不同用例中的宝贵工具。
发布者:Athena,转转请注明出处:https://www.yadiannaai.com/ainews/4574.html