数据描述
使用泰坦尼克号乘客信息数据,预测其生还情况
|
|
|
|
由输出可知,该数据共有 1313 条乘客信息,并且有些特征数据是完整的(如pclass,name 等),有些则是缺失的;有些是数值类型的,有些则是字符串。
特征选择
|
|
数据处理
借由上面的输出,我们设计如下几个数据处理的任务:
- age 这个数据列,只有 633个数据,需要补完;
- sex 与 pclass 两个数据列的值都是类别型的,需要转化为数值特征,用 0/1 代替。
|
|
由输出可知,age 特征得到了补完。
准备训练集、测试集
|
|
特征转换
|
|
|
|
使用决策树预测乘客是否生还
|
|
性能测评
|
|
由输出可知,决策树模型总体在测试集上的预测准确性约为 78.12%。该模型在预测遇难者方面的性能较好,在识别生还者的准确率方面仍有待提高。
特点分析
决策树的推断逻辑非常直观,具有清晰地可解释性,也方便了模型的可视化。这些特性同时也保证在使用决策树模型时,是无须考虑对数据的量化甚至标准化的。并且,与前一节K近邻模型不同,决策树仍然属于有参数模型,需要花费更多的时间在训练数据上。