来源:InfoWorld 作者:Matt Asay

在早期,开源倾向于模仿专有软件(Linux for Unix,JBoss for BEA WebLogic等)。如今,开源扮演着创新者的角色,而不是模仿者的角色。从云基础设施和devops自动化到机器学习和数据工程,开源项目已成为企业的默认项目。
要了解软件的未来,看看世界上最大的开源软件存储库GitHub上发生的事情是值得的。通过测量GitHub stars, forks, and commits,我们可以了解开源以及推广行业趋势。我会在这里挖掘数据,但这里有一个剧透:人工智能是开源中的一大新事物,就像其他地方一样。GitHub的生成人工智能项目同比增长了98%,Jupyter Notebook的使用量增长了92%。
奠定基础:Kubernetes和朋友
如果基础设施不稳固,任何企业都无法使用人工智能。为了保证基础设施,几十年来,企业越来越多地接受开源。我之前提到过Linux,但Kubernetes是过去十年的大赢家,71%的财富100强公司将其作为他们的主要容器编排工具。这一成功表现在114,000个GitHub stars、40,000多个 forks、74,000多个贡献者(来自7,800多家公司)和314,000多个代码提交。这是开源开发的一个惊人例子,至今仍在继续:2025年有近2000个开放问题和每日提交。
除了Kubernetes之外,公司们还涌向开源基础设施作为代码(IaC)和容器工具来管理云部署。例如,在过去的几年里,HashiCorp Terraform已成为IaC事实上的标准;它的受欢迎程度表现在45,000颗 stars和9,800个 forks上。最近OpenTofu为企业提供了另一种开源选择。更说明时间的是IaC使用率的总体增长:GitHub的数据显示,HashiCorp的HCL等声明性配置语言在2023年同比增长36%。这与使用Terraform和类似工具实现云部署标准化的开发人员的急剧上升相一致。其他云原生基础设施项目,从服务网格(Istio)到监控系统(Prometheus),也发展了强大的社区。
在同一时间范围内,开源用于容器化和管道自动化的爆炸性增长。GitHub的Octoverse指出,到2023年,GitHub上的430万个存储库正在使用Docker容器文件,包括超过100万个带有Dockerfiles的公共存储库,这反映了基于容器的开发和部署的无处不在。与此同时,通过CI/CD管道和“一切作为代码”的基础设施自动化急剧增长。开发人员不仅将应用程序容器化,还使用GitHub Actions、GitLab CI和Argo工作流程等工具实现发布流程的自动化。
解释这一点的一种方式是,开源操作工具正在跟上软件开发的步伐。开源开发项目可能不会像人工智能那样抢夺头条新闻,但它们的采用率逐年持续增长。HCL和Shell作为GitHub上顶级语言的兴起加强了以运营为重点的代码是开源活动中越来越多的份额。实际上,企业正在对这些开放工具进行标准化,以管理复杂的云环境。
至关重要的是,这些和其他云基础设施、容器化和管道自动化项目受益于强大的企业参与。来自谷歌、Red Hat、AWS和VMware的开发人员为Kubernetes和相关项目贡献代码,确保这些工具满足基本的企业要求。但它不止于此。我们看到,竞争对手在共同基础设施平台上进行合作的倾向越来越大,使组织能够专注于更高级别的创新。
机器学习和人工智能:魔法发生的地方
此类基础设施项目使企业能够接受人工智能,这要归功于丰富的开源项目。开源机器学习库和新的人工智能项目在使用和社区规模方面都经历了前所未有的增长。尽管像TensorFlow和PyTorch这样的既定框架仍然非常受欢迎,但真实的故事是开源中生成人工智能和大型语言模型项目的出现。根据GitHub数据,仅在2023年,GitHub上的生成人工智能项目数量就同比增长了248%,而这些项目的个人贡献者数量增长了148%。
几个突出的项目体现了人工智能在开源中的主导地位。Hugging Face Transformers是一个统一最先进的模型的图书馆,到2025年,它已经飞升到超过14万颗 stars,成为自然语言处理和模型共享的核心工具。新来项目见证了一些有史以来最快的增长:LangChain,一个在2022年底推出的人工智能框架,用于构建带有语言模型的应用程序,在大约一年内飙升到超过10万颗 stars。同样,实验性自主人工智能代理AutoGPT获得了超过174,000颗stars,几乎在一夜之间就成为GitHub的顶级项目之一。即使是像稳定扩散(用于图像生成)及其流行的网络用户界面这样的人工智能应用程序也积累了庞大的社区。当然,GitHub明星不会转化为收入,也不是采用的硬指标,但它们确实表明人工智能吸引了开发人员的注意力。
事实上,趋势是显而易见的:人工智能主导了开源增长。到2023年,GitHub指出,一些开源生成人工智能项目已经躋身贡献者数量前10名最受欢迎的项目之一。这是一个显著的转变。从历史上看,贡献最大的项目通常是操作系统、数据库或开发工具。现在,人工智能项目——许多是由个人开发人员或研究实验室发起的——正在团结庞大的社区。同样,如果没有开源首先为其他类别奠定基础,这种人工智能热潮是不可能的。例如,大规模部署机器学习模型需要云基础设施,如AI和MLOps管道的Kubernetes操作员,以及devops自动化。利用人工智能的企业同时投资于这些开放平台。从本质上讲,人工智能并没有取代对云或devops项目的兴趣,而是成为他们的加速因素。
同样值得指出的是,尽管数据工程项目没有像生成人工智能项目那样受到关注,但像Apache Airflow(越来越成为数据管道调度的标准)或dbt(以SQL为中心的数据转换)这样的项目已经显示出稳步增长。这些承诺满足复杂的企业需求(例如,处理数百万条记录或事件),因此它们的采用往往非常慎重。即便如此,在过去的几年里,我们看到越来越多的公司选择开放解决方案而不是专有的ETL/ELT或分析工具,因为灵活性和成本等优势。
是时候上开源快车了
近年来,一个基本事实已经出现:开源不再是一个好事,而是一个基本的业务当务之急。从云原生基础设施和devops工具到人工智能框架和数据平台,企业从积极参与中获得重大的战略利益。特别是随着人工智能如此早期地开源,开源已经成为企业成功需要遵循的战略游戏手册。
本文转载自InfoWorld,本文观点不代表雅典娜AI助手YadiannaAI立场。