scikit-learn 是基于 Python 語言的機器學習工具。
優勢:
- 簡單高效的數據挖掘和數據分析工具
- 可供大家在各種環境中重復使用
- 建立在 NumPy ,SciPy 和 matplotlib 上
- 開源,可商業使用 - BSD許可證
scikit-learn常用數據集獲取方法
- sklearn.datasets.load_XX():獲取小規模數據集
- sklearn.datasets.fetch_XX():加載大規模數據集
-
返回值load和fetch返回的數據類型是sklearn.utils.Bunch(字典格式)
- data:特征數據,[樣本 * 特征值]的二維ndarray數組
- target:標簽數組,一維ndarray數組
- DESCR:數據描述
- feature_names:特征名稱
- target_names:標簽名稱
?
數據集劃分
機器學習一般將數據集劃分為兩個部分:
- 訓練數據:用于訓練、構建模型,劃分比例:70% 80%
- 測試數據:在模型評估時使用, 劃分比例:30% 20%
-
sklearn.model_selection.train_test_split(arrays, *options)
- x數據集的特征值
- y數據集的目標值
- test_size測試集的大小,float類型
- 返回 訓練集特征值、測試集特征值、訓練集目標值、測試集目標值
?