这就是multi-task model推到了极致,跟AGI没什么关系。也许transformer model不同任务之间更容易共享权重(即,用共享权重,不同任务之间冲突比较少)。至于模型怎么共享的权重,可能方式很奇怪,比如处理语言的和处理机器人动作的用同一个权重subset,data driven的特点是只要那样做不会让性能变差,模型就可以那么做,但背后并没有什么可以interpret的。
这么做有个好处是用户下游的新任务,用这个fine-tune一下应该性能就可以不错,不需要选模型了,对于researcher发论文来说就又多了一个强baseline
===