6月18日,阿里ATH-Token Foundry联合中国人民大学高瓴人工智能学院开源多领域科学生成基础模型LOGOS。该模型通过构建统一离散Token词表,将蛋白质、小分子、抗体及MOF材料等异构对象转化为序列表示,摆脱对高成本3D结构建模的依赖,实现跨学科数据统一建模。LOGOS-1B以约1/56参数量在多项任务中超越微软NatureLM,并减少预训练与下游任务偏差,降低微调成本。目前项目已发布包含7类模态、44.87B tokens的语料库,并在GitHub与HuggingFace开源模型与代码。