文章地址在以往的知识蒸馏中,我们要求 teacher 和 student 的 feature 或者 logits 直接数值上的靠近。但是由于 teacher 和 student 网络的差异,直接使用数值上的靠近可能对 student 比较困难。Method本文提出的方法是,蒸馏 teacher 和 student 之间 feature 的分布,而忽略数值上的一一对应,从而具有更好的灵活性。RKD

- 阅读全文 -