良/恶性乳腺癌肿瘤预测
数据描述
数据下载地址:良/恶性乳腺癌肿瘤预测任务的原始数据
- 原始数据共有699条样本,每条样本有11列不同的数值:
- 1列用于检索的id,9列与肿瘤相关的医学特征,以及一列表征肿瘤特征的数值;
- 所有9列数值均被量化为1~10之间的数字;
- 肿瘤的类型也由数字2和4分别代表良性和恶性;
- 这份数据其中包含16个缺失值,用“?”表示。
数据预处理
|
|
准备训练、测试数据
由于原始数据没有提供对应的测试样本用于评估模型性能,因此需要对带有标记的数据进行分割。通常情况下,25%的数据会作为测试集,剩下75%作为训练集。
|
|
使用线性分类模型进行预测任务
|
|
使用线性分类模型的性能分析
评价指标:
准确性 Accuracy:比对预测结果和原本的正确标记,计算全部测试样本中预测正确的百分比。
召回率 Recall
精确率 Precision
为了综合考虑召回率与精确率,计算这两个指标的调和平均数 F1 measure
|
|
分析
线性分类器是最基本和常用的机器学习模型。这里所使用的的模型包括 LogisticRegression 和 SGDClassifier。输出如图:
(为什么一样呢?……..
- LogisticRegression 对参数的计算采用精确解析的方式,计算时间长但是模型性能略高;
- SGDClassifier采用随机梯度上升算法估计模型参数,计算时间短但是产出的模型性能略低。
一般对于训练数据规模在10万量级以上的数据,采用随机梯度算法对模型参数进行估计。