富士通近日公开PHOTON架构,面向传统Transformer在长文本和高并发多查询场景中的访存与效率瓶颈。该架构采用语义分层处理,区别于Token级分割,可降低计算复杂度并提升并行能力;在多查询决策中支持多数决定或最佳选择策略,以一次推理输出结果。测试显示,在600M、900M和1.2B参数小模型中,PHOTON具备较高吞吐量和较低内存占用,其中1.2B模型多查询性能最高为主流Transformer的475倍。富士通称,该架构可减少每轮迭代所需KV Cache,并正推进应用落地。
富士通近日公开PHOTON架构,面向传统Transformer在长文本和高并发多查询场景中的访存与效率瓶颈。该架构采用语义分层处理,区别于Token级分割,可降低计算复杂度并提升并行能力;在多查询决策中支持多数决定或最佳选择策略,以一次推理输出结果。测试显示,在600M、900M和1.2B参数小模型中,PHOTON具备较高吞吐量和较低内存占用,其中1.2B模型多查询性能最高为主流Transformer的475倍。富士通称,该架构可减少每轮迭代所需KV Cache,并正推进应用落地。