softmax计算上会溢出,彼此类别之间竞争关系大,会降低置信度,可以用10000个sigmoid二分类代替