富士通发布PHOTON架构，多查询性能最高达Transformer的475倍

富士通近日公开PHOTON架构，面向传统Transformer在长文本和高并发多查询场景中的访存与效率瓶颈。该架构采用语义分层处理，区别于Token级分割，可降低计算复杂度并提升并行能力；在多查询决策中支持多数决定或最佳选择策略，以一次推理输出结果。测试显示，在600M、900M和1.2B参数小模型中，PHOTON具备较高吞吐量和较低内存占用，其中1.2B模型多查询性能最高为主流Transformer的475倍。富士通称，该架构可减少每轮迭代所需KV Cache，并正推进应用落地。

富士通发布PHOTON架构，多查询性能最高达Transformer的475倍

发表回复