来源:CIO 作者:Dave Wright

人工智能使企业过度关注其数据,但对更多数据的急于关注转移了对创建和维护优质数据这一同样重要的工作的注意力。
在打造最智能的 LLM的竞赛中,一致的呼声是“更多数据!”同样的呼声也流行到了公司董事会。随着企业急于利用人工智能来获得竞争优势,寻找和使用尽可能多的公司数据可能是最合理的方法。
毕竟,如果更多的数据导致更好的LLM,人工智能业务解决方案不应该也是如此吗?
简短的答案是否定的。疯狂地向人工智能投喂数据是短视的。相反,您的业务需要了解现有数据的挑战,以及确保您拥有并使用良好数据来为您的人工智能解决方案提供动力。数据计算时代已经到来,您不仅要考虑您使用的数据量,还要考虑数据的质量。
现在的紧迫性
人工智能的兴起迫使企业更多地思考他们如何存储、维护和使用大量数据。企业在实施人工智能解决方案时迅速面临的现实之一是,一旦数据在LLM或SLM中使用,就无法回头了。
传统上,为大量数据而挣扎的公司使用数据池来存储和处理数据。虽然数据被存储,但通常没有对来源、最近的更新和其他关键治理措施来确保数据完整性的管理。
这种数据存储方法对当今企业来说是一个问题,因为如果他们使用过时或不准确的数据来训练LLM,这些错误就会被嵌入模型中。结果会相反,数据训练模型是错误的。
同样令人担忧的是,由于数据在LLM的黑匣子里,有人会知道答案是错误的吗?如果用户没有其他东西可以比较答案,他们通常会认为答案是理所当然的。这个例子表明,我们可能需要更多数据来为人工智能提供动力,但如果数据错误,则不需要。
今天的挑战
如今,业务数据存在几个主要挑战:
1.数据来源
在数据池中存储大量数据对企业数据造成了很大的不确定性。谁创建了这些数据?它来自哪里?上次更新是什么时候?这是一个值得信赖的来源吗?了解数据集的血统是信任和自信地使用数据的关键第一步。
2.数据分类
随着数据被存储在数据池和其他连接的方式中,另一个挑战是分类。谁被允许查看特定数据?从政府安全分类到机密的人力资源信息,数据不应该让每个人都能访问。数据必须正确分类,当公司以新方式整合和利用数据时,这些类别及其所带来的限制必须保持和生存。
3.稳定性
很多数据都是短暂的。例如,如果您从传感器获取数据,您需要了解根据传感器读数刷新数据的频率。这是一个数据稳定性的问题,因为不断变化的数据可能会导致不同的结果。
数据也在老化。例如,假设您有一个具体的流程,为新员工提出九年的职位列表,但去年您修改了流程。如果您使用所有10年的数据来训练一个模型,然后询问如何打开招聘,大多数时候,您将得到一个错误的答案,因为大多数数据都已经过时了。
这是一个明显的例子,说明数据越多并不总是更好。跨越重大流程变化的十年数据不如准确捕获现有流程的较小数据有价值。
4.复制偏见
当您开始使用数据来训练人工智能时,您有风险根据现在的情况而不是预期的结果来训练您的模型。例如,假设您的人力资源部门正在使用人工智能来筛选求职者。例如,如果您使用公司的现有数据来训练模型,了解理想的候选人会是什么样子,您的模型最终可能会复制员工中与年龄或性别相关的现有偏见。
您希望训练模型不是基于数据集中的现实,而是基于您想要实现的结果,这从对数据及其局限性的清晰理解开始。
有问题数据的危险
使用有问题的数据来训练你的LLM可能会有严重的危险。在基本层面上,它会增加幻觉,并破坏你对结果的信心。您可能会收到不准确或系统无法按照您希望的方式工作。当这种情况发生时,员工的信任度和使用系统的意愿可能会下降。
使用不良数据甚至会造成声誉损害。如果您使用数据来训练一个性能不佳的面向客户的工具,您可能会损害客户对公司能力的信心。
使用泄露的数据来制作有关公司或其他公共信息的报告甚至可能成为政府和合规问题。如果数据被错误分类,您就有暴露个人信息的风险。所有这些情况在财务和声誉上都可能代价高昂。
今天行动
您的企业今天可以采取以下数据管理步骤来利用人工智能革命:
1.加强您的数据治理流程
每个企业都需要一个强大的数据治理流程。您必须通过回答以下问题来定义有关处理、存储和更新数据的规则:
- 谁负责数据分类?
- 谁负责查看您数据的访问权限?
- 谁来控制这些数据的管理?
- 你会任命首席数据官、分析团队还是其他人?
- 你会保留数据多久,谁来做出这些决定?
在开始使用公司数据进行人工智能解决方案之前,回答这些问题将使您的业务受益。
2.确保您的合规流程
您的企业应该将强大的治理流程与同样强大的合规流程合作。当数据被用于消费时,您是否有一个合规流程来确认提交数据的人是否经过了适当的治理检查?
当你开始采用人工智能工具时,正确存储数据是不够的。您必须确保您有关数据完整性的政策和程序扩展到访问和使用数据的任何地方。
综合起来,治理和合规流程是维护数据完整性的核心,鉴于公司正在积累的数据数量惊人,它们的重要性只会越来越大。
例如,正如Brian Eastwood所指出的:“医院平均每年产生大约50PB的数据。这是美国国会图书馆存储的数据量的两倍多,每天达到137兆字节。”当数据对您的公司至关重要时,特别是当数据也在快速增长时,您需要明确的规划和角色职责来保护、管理和利用数据。
3.了解你的数据
使用多少数据的问题不应该基于你拥有多少数据,而应该基于了解你的数据和目标。在人工智能的早期,传统智慧是,更多的数据意味着更好的LLM。然后,有一种趋势是使用更准确的数据进行高度调整的小语言模型。决定采取哪种方法将取决于手头的情况。但是,如果您首先没有深入了解您的数据及其局限性,您就无法做出明智的决定。
代理人工智能的数据计算
下一个伟大的变革是如何将数据与代理人工智能一起使用。让人工智能代理使用LLM或一个主代理协调多个人工智能代理,每个代理都有自己的SLM,会更有效吗?
思考代理人工智能将为企业提供的可能性是令人兴奋的。无论哪种方法获胜,代理人工智能都将依赖于强大的数据治理和合规流程。强大的数据完整性将使人工智能能够真正交付。
在急于训练人工智能模型时,我们不能只是大喊“更多数据!”相反,让我们要求高质量的数据,因为我们知道现在设定高标准将在未来提供优化的结果。
本文转载自CIO,本文观点不代表雅典娜AI助手YadiannaAI立场。