来源:CIO 作者:Dipti Parmar

对于 AI 开发者和行业领导者而言,能否有效利用公共数据可能是实现突破性创新与陷入高成本低效困境的分水岭。
还记得 “大数据” 这个词吗?在 AI 崛起并完全取代它在科技爱好者心中的地位之前,它至少十年间都是科技文章、脱口秀和网络研讨会的主角。
但这并未掩盖一个事实:AI 模型依赖大量数据。机器学习(ML)算法识别并应用的模式和相互关系,构成了其用例的基础。根据 AI 模型的开发阶段,使用的数据可分为三类:训练数据、测试数据和验证数据。
以个人经验来看,训练数据在数量和质量上都是最关键的。AI 模型的优劣直接取决于其训练数据的质量。如果没有大量相关且准确的训练数据,模型要么无法学习到预期内容,要么会学到错误信息。
反之,数据的数量和多样性越高,数据源越可靠,AI 模型的功能就越完善、越精准。无论开发大语言模型(LLM)、计算机视觉系统还是专业行业应用,训练数据的广度和深度都会直接影响模型的能力、可靠性、性能和一致性。
我们有足够的数据吗?
麻省理工学院(MIT)最近的分析显示,AI 模型的数据需求可能已超过当前可用的合适数据供应。2020 年,训练数据集的中位数约为 3300 个数据点,短短三年后,这一数字急剧增长至超过 75 万个数据点。尽管预计到今年年底,全球数据总量将达到 180 ZB,但可能仍不足以满足 AI 的 “数据饥渴”。
这很可能会拖慢我们训练 LLM 和其他大型模型的速度。此外,由于数据广度和深度不足,这些模型可能缺乏准确性和覆盖范围,进而减缓高度依赖 AI 应用的行业的创新步伐。
虽然合成数据解决方案有一定吸引力,但过度依赖可能导致模型崩溃。
从哪里获取更多数据?
目前,AI 公司通过多种方式获取数据:
- 内部数据:我们经常帮助客户利用自有数据训练小型 AI 模型,以在其平台内实现更广泛的功能,尤其是与营销和客户服务相关的功能。
- 社交网络就是典型例子 —— 它们利用自有算法推送更多符合用户偏好的内容,形成 “信息茧房”。亚马逊等电商零售商在产品推荐算法中采用类似逻辑,Netflix 和 Spotify 则通过用户的观看 / 收听历史增加用户粘性,类似案例不胜枚举。
- 平台数据采集公司:通过自有平台收集或利用数据的公司,例如专门收集点击流数据的 DatOs(2023 年被 Semrush 收购),它们将数据打包后出售给广告或分析公司(如我们的公司)。一旦获得稳定的点击流数据,就可以构建定制化的基于 AI 的预测分析模型。
- 用户生成内容平台:如 Reddit 与谷歌达成授权协议,允许将论坛评论用于训练谷歌的 AI 模型。
- 公开数据集:由政府机构、学术机构和市场研究公司共享或出售给任何感兴趣的实体的数据集。
然而,所有这些来源在规模和范围上仍有局限。最佳(尽管有些争议)的数据来源是公共网络数据—— 这是一个庞大、多样且不断更新的人类知识和交互存储库。毫无疑问,行业巨头(如 OpenAI 和谷歌)会爬取并索引网站、论坛、社交媒体和其他在线来源的公开内容,用于训练其 LLM 和其他 AI 模型。
公共网络数据又分为两类:
- 公共存储库:如 Common Crawl,这是一个免费的开源网络爬取数据仓库,几乎任何互联网用户都可访问其历史和当前的网络爬取数据。
- 网络数据采集服务:帮助从最佳在线数据源以多种方式实时获取及时数据,满足各种需求。
- 例如,Bright Data 允许开发者使用住宅代理 IP 和大规模按需 API,从公开、合规的网页实时提取数据;
- Apify 提供爬取工具和 AI 代理市场,还允许使用名为 “actors” 的无服务器工具构建自定义爬取工具;
- Zyte 则内置法律合规性和即用即付定价模式,以降低数据成本。
使用公共网络数据的优势
最大优势?成本效益。
数据采集的成本影响再怎么强调也不为过。公共网络数据若经过适当收集和过滤,可避免使用许多昂贵的专有数据集。
深度求索(DeepSeek)最近的突破表明,智能利用网络数据能带来显著收益。其成功证明,在训练 AI 模型时,高质量和及时的数据比复杂算法和强大计算能力更重要。
除成本和复杂性外,使用公共网络数据还有更多优势:
- 多样化(但相关)的数据可加速训练过程中的收敛,从而降低计算需求;
- 覆盖更多边缘案例和非常规场景,且无需按比例增加成本;
- 网络数据的动态性可推动模型持续改进和优化,无需重复投资。
行业应用案例
- 金融服务
开发 AI 解决方案的金融机构面临独特挑战,需要专业数据。公共网络来源提供:- 实时市场评论和分析;
- 监管更新和合规文件;
- 消费者对金融产品和服务的情绪反馈;
- 经济指标和预测;
- 公司披露和财报。
整合这些多样化数据源可增强预测分析能力,同时显著减少对昂贵专有金融数据服务的依赖。
- 广告技术(Adtech)
对广告技术公司而言,理解消费者行为和偏好至关重要。网络来源的训练数据提供:- 消费者评论和产品讨论;
- 社交媒体参与模式;
- 内容消费趋势;
- 文化引用和语言使用变化;
- 视觉设计偏好和参与度指标。
通过利用公共网络数据,广告技术 AI 模型可深入理解受众群体,成本仅为传统市场研究的一小部分。
- 旅游与酒店业
旅游领域的 AI 应用受益于网络上丰富的多媒体内容:- 目的地图片和描述;
- 带有个性化推荐和计划的评论;
- 季节性趋势和偏好模式;
- 酒店空房、航班价格和天气实时信息;
- 文化背景和当地信息;
- 交通物流和优化数据。
采用基于多样化网络数据源训练的模型的旅游公司报告称,其个性化能力和上下文感知的客户服务自动化水平均有所提升。
使用公共网络数据的挑战
从公共网络采集数据需仔细考虑法律、伦理和技术因素:
- 合规性:必须遵守服务条款、版权法和数据隐私法规(如 GDPR 和 CCPA)。谷歌和 OpenAI 均因使用受版权保护的材料训练 AI 模型且未通知或补偿权利人,被数据所有者、媒体机构和内容创作者起诉。
- 中国在 2023 年主动修订官方 AI 政策,统一数据标准并加速跨行业数据共享,不到一年便通过 DeepSeek 展现了成果。
- 然而,许多社交平台和内容媒体正积极阻止机器人采集其页面信息用于 AI 模型,担心其资源被无偿使用。与此同时,大型科技公司(如谷歌和 OpenAI)却公开呼吁削弱美国版权规则,声称要 “支持 AI 创新”。
- Bright Data 则在获取主要媒体和社交平台公共数据的同时,抵制大型科技公司的阻碍。美国联邦法院驳回了 Meta 对该公司采集 Facebook 和 Instagram 公共数据的指控。
该公司 CEO、伦理数据采集领域的思想领袖奥尔・伦克纳(Or Lenchner)表示:“公共信息应保持公开。我们有责任 uphold 最高伦理标准和合规措施,确保所有采集公共数据的做法透明且有益。我们将继续提升标准,开发新技术让全球更便捷地获取数据。”
- 其他挑战:
- 内容质量参差不齐,需复杂的过滤机制;
- 网络数据反映社会偏见,训练时必须识别和解决;
- 难以区分事实与猜测、噪声、错误信息和虚假信息;
- 信息更新速度因领域而异,需及时维护;
- 综合模型需要跨语言和文化的均衡表示。
应对这些挑战的行业领导者发现,投资强大的数据处理管道可显著提升模型性能和可靠性。
使用公共网络数据训练 AI 模型的最佳实践
公共网络仍是 AI 训练数据丰富且不断扩展的资源。然而,战略性使用公开数据不仅是一种成本削减措施,更是潜在的竞争优势。以下是 AI 驱动型组织在符合伦理和法律责任的前提下获取和使用公共数据的建议:
- 尊重版权、服务条款和数据隐私法规:负责任地使用网络爬取和 API 集成,遵守 IETF 和 W3C 指南。
- 保持数据来源、采集方法和预处理技术的详细透明记录:避免未经同意收集个人数据,确保符合数据保护法。
- 针对行业特定术语和上下文开发专门的预处理流程:构建特定行业和应用的领域爬取工具。
- 应用严格的数据验证、去重和清洗流程:去除不准确和不一致的数据。
- 建立强大机制识别高质量内容并过滤低价值或误导性信息:利用用户反馈的协同过滤系统持续改进数据质量。
- 定期审计和优化数据集:最大限度减少可能扭曲 AI 模型预测的偏见,从不同渠道和格式采集数据以确保覆盖全面、提升多样性。
- 创建严格的测试协议:验证网络来源数据对模型性能的影响,建立持续数据采集管道以捕捉语言、趋势和信息的变化。
- 尝试混合方法:将网络数据与专有数据集结合以获取竞争优势。
- 实施联邦学习系统:从分布式网络数据中学习,无需集中采集。
掌握这些不断演进的方法的组织,将在模型性能和开发经济性方面获得显著优势。
对于 LLM 和 AI 开发者而言,信息很明确:战略性采集和利用公共网络数据是提升模型能力、控制开发成本的最有力手段之一。DeepSeek 等模型已证明,通过智能利用网络数据,无需大幅增加成本即可开发出性能卓越的复杂 AI 解决方案。
随着竞争格局加剧,只有那些能最大化训练数据数量和质量的 AI 模型才能保持竞争力。
本文转载自CIO,本文观点不代表雅典娜AI助手YadiannaAI立场。