2.2数据清理
数据异常的种类
分布出现异常
数值可以用箱线图来看
类别值看Value_count
违反数据列规则
违反数据列模式
2.3数据变换
数值变换
最小最大值
Z-Score
直接缩放
取log
取log时候,加减对应之前的乘除,比如房价,房价为一千时,上下波动几百都会有很大影响,房价为一万时,几百的波动显得不重要,对房价预测的误差以百分比的形式出现。
图像变换
视频变换
文本变换
词根变换
词元变换
工具 :subword sentencepiece jieba