m一般指样本数量
nx一般指特征数量
gradient指梯度
sigmoid激活函数
当m<nx时,矩阵$X^TX$不可求逆
Octave语言