Overcast 播客应用开发者 Marco Arment 近日自建由 48 台 Mac mini 组成的服务器集群,以替代昂贵的云端 AI 转录服务。Arment 表示,播客语音识别在云端按次计费,业务增长导致每日开支高达数千美元,因此选择采用本地部署方式。该集群利用 Apple Silicon 芯片的高能效和统一内存优势运行语音识别模型,通过分布式架构提升处理效率,显著降低长期运营成本。在具体实现中,系统结合音频指纹识别和去重技术,为动态广告插入造成的音频差异生成统一基准文本,确保转录一致性并减少重复计算。该方案展示了高并发音频处理的经济型替代路径,为内容分发类应用提供了优化成本的新参考。