資訊中心 Info
當前位置:愛尚教育 > 資訊中心 >
sk-learn之數據集及數據集的劃分
發布日期:2021-09-08 閱讀次數:
scikit-learn 是基于 Python 語言的機器學習工具。
 
優勢:
  • 簡單高效的數據挖掘和數據分析工具
  • 可供大家在各種環境中重復使用
  • 建立在 NumPy ,SciPy 和 matplotlib 上
  • 開源,可商業使用 - BSD許可證
 
scikit-learn常用數據集獲取方法
 
  • sklearn.datasets.load_XX():獲取小規模數據集
  • sklearn.datasets.fetch_XX():加載大規模數據集
  • 返回值load和fetch返回的數據類型是sklearn.utils.Bunch(字典格式)
    •   data:特征數據,[樣本 * 特征值]的二維ndarray數組
    •   target:標簽數組,一維ndarray數組
    •   DESCR:數據描述
    •   feature_names:特征名稱
    •   target_names:標簽名稱

?

 

數據集劃分

 
機器學習一般將數據集劃分為兩個部分:
 
  • 訓練數據:用于訓練、構建模型,劃分比例:70% 80%
  • 測試數據:在模型評估時使用, 劃分比例:30% 20%
  • sklearn.model_selection.train_test_split(arrays, *options)
    •   x數據集的特征值
    •   y數據集的目標值
    •   test_size測試集的大小,float類型
    •   返回 訓練集特征值、測試集特征值、訓練集目標值、測試集目標值

?

 

优彩-网址