阅读设置
第319章 困死我了 (3/3)
3?在数据清洗之前y最为重要的对数据表的查看y要了解表的结构和发
现需要处理的值y这样才能将数据清洗彻底
?
4?数据量的大小也关系着数据的处理方式
?
5?在导入数据表后y一般需要将所有列一个个地进行清洗y来保证数据
处理的彻底性y有些数据可能看起来是可以正常使用的y实际上在进行处
理时可能会出现问题?比如某列数据在查看时看起来是数值类型y但是其
实这列数据的类型却是字符串y这就会导致在进行数值操作时无法使用?。
数据处理常常涉及数据集成操作y即将来自多个数据源的数
据y结合在一起形成一个统一的数据集合y以便为数据处理
工作的顺利完成提供完整的数据基础
在数据集成过程中y需要考虑解决以下几个问题x
?
1?模式集成问题
?
2?冗余问题
?
3?数据值冲突检测与消除问题。
常见的数据转换策略包括x
?
1?平滑处理帮助除去数据中的噪声y常用的方法包括分箱回归
和聚类等
?
2?聚集处理对数据进行汇总操作例如y每天的数据经过汇总操
作可以获得每月或每年的总额这一操作常用于构造数据立方体或对数
据进行多粒度的分析
?
3?数据泛化处理用更抽象的概念来取代低层次的数据对象例如y
街道属性可以泛化到更高层次的概念y如城市国家y再比如年龄属性
可以映射到更高层次的概念y如青年中年和老年。
规范化处理将属性值按比例缩放y使之落入一个特定的区间y
比如0~1常用的数据规范化方法包括min-max规范化z-score规范化
和小数定标规范化等
?
5?属性构造处理根据已有属性集构造新的属性y后续数据处理直
接使用新增的属性例如y根据已知的质量和体积属性y计算出新的属
性密度。
我怎么又困了。
其他最近更新
- 《公子风流世无双》作者:天鬼山的艾晴
- 《这个杀手是赘婿》作者:雨夜徒步
- 《观影:给诸天万界一点点崩铁震撼》作者:沐子休
- 《农家有蓁宝》作者:冰棠要吃松子
- 《快穿之大佬来了,渣渣要倒霉了》作者:微生青烟
- 《四合院:从民国三十年开始!》作者:心雨未霁
- 《四合院:我当兵回来了》作者:搁浅时光
- 《综影视:我不是提线木偶》作者:珈蓝锦年1
- 《小马宝莉之荒原影魔勇闯小马利亚》作者:MYLIMIT
- 《【水官解厄】月麟》作者:月下丝竹
- 《穿越异世之修仙》作者:寂静无诲
- 《斩神,笙笙来也》作者:久啾咪
- 《逆天神鼎》作者:夜郎不大
- 《婚不可待:高冷凤少也折腰》作者:跳楼的可爱多
- 《重生60饥荒年孤女是异能女王》作者:樱挑
- 《娇美人揣崽去逼婚,震惊家属院!》作者:竹苑青青