iobjectspy.ml.analyst package

Module contents

class iobjectspy.ml.analyst.TabularDataPreparation

基类:object

表格数据准备流程入口

static create_training_data(input_data, label_class_field, output_path, output_name, training_data_format, **kwargs)

表格数据创建训练数据集

参数:
  • input_data -- 输入数据路径,暂时只支持csv
  • label_class_field -- 数据标签所在列名
  • output_path -- 输出路径
  • output_name -- 输出文件名
  • training_data_format -- 要制作的训练数据格式
  • kwargs -- 其他附加参数
返回:

class iobjectspy.ml.analyst.TabularTrainer(train_data_path, config, lr, output_model_path, output_model_name, model_kwargs=None, **kwargs)

基类:object

表格数据训练入口

参数:
  • train_data_path -- 训练数据路径
  • config -- 训练配置文件
  • lr -- 学习率
  • output_model_path -- 输出模型路径
  • output_model_name -- 输出模型名字
  • model_kwargs -- 模型附加参数
  • kwargs -- 其他参数
cls_train()

表格数据分类模型训练功能

生成模型将存储在输入的 ‘output_model_path’ 路径下

返回:None
class iobjectspy.ml.analyst.TabularInference(model_path, **kwargs)

基类:object

表格数据模型推理初始化入口

参数:model_path (str) -- 模型存储路径
cls_infer(input_data, out_data, out_dataset_name=None, **kwargs)

表格数据模型推理功能入口

参数:
  • input_data -- 输入数据路径,暂时只支持csv
  • out_data -- 输出数据路径,暂时只支持csv
  • out_dataset_name -- 输出文件名
  • kwargs -- 其他参数
返回:

(预测结果 ,输出数据路径)

class iobjectspy.ml.analyst.AutoMLTabularDataPreparation

基类:object

表格数据准备流程入口

static create_training_data(input_data, label_class_field, output_path, output_name, training_data_format, **kwargs)

表格数据创建训练数据集

参数:
  • input_data -- 输入数据路径,暂时只支持csv
  • label_class_field -- 数据标签所在列名
  • output_path -- 输出路径
  • output_name -- 输出文件名
  • training_data_format -- 要制作的训练数据格式
  • kwargs -- 其他附加参数
返回:

class iobjectspy.ml.analyst.AutoMLTabularTrainer(output_model_path, output_model_name, config=None, mode='Explain', algorithms=None, total_time_limit=3600, eval_metric='auto')

基类:object

表格数据训练入口

参数:
  • output_model_path -- 输出模型路径
  • output_model_name -- 输出模型名字
:param mode:工作模式, 支持:"Explain`, Perform, Compete
Explain 模式,解释和理解数据的理想选择,它具有许多数据解释,例如决策树可视化,线性模型系数显示,排列重要性和数据的 SHAP 解释。具有学习曲线,重要性图和 SHAP 图 Perform 模式,用于构建用于生产的 ML 管道。具有学习曲线和重要性图 Compete 模式,用于训练经过整合和堆叠的高度优化的 ML 模型,目的是用于 ML 竞赛。具有学习曲线

:type str :param algorithms:训练使用的算法列表。支持:'Decision Tree', 'Baseline', 'Linear', 'Random Forest', 'Extra Trees',

'LightGBM', 'Xgboost', 'CatBoost', 'Neural Network', 'Nearest Neighbors'

:type list[str] :param total_time_limit:训练时的总时间限制,时间单位为秒。 :type int :param eval_metric: 比较模型的指标。不同的分析方法计算一个统一的评估指标,比较优劣。支持:auto,logloss,rmse

auto:自动根据分类或回归模型选择 logloss 或 rmse logloss:分类评估指标 rmse:回归评估指标

:type list :param config: 训练配置文件

score()

最优模型得分 :returns 当为回归模型时,输出R2,当为分类模型时,输出 Accuracy 。

train(train_data_path)

模型训练

参数:train_data_path -- 训练数据路径
返回:None

生成模型将存储在输入的 ‘output_model_path’ 路径下

class iobjectspy.ml.analyst.AutoMLTabularInference(model_path)

基类:object

模型推理初始化入口

参数:model_path (str) -- 模型存储路径
infer(input_data, out_data, out_dataset_name=None)

模型推理功能入口

参数:
  • input_data -- 输入数据路径,暂时只支持csv
  • out_data -- 输出数据路径,暂时只支持csv
  • out_dataset_name -- 输出文件名
返回:

(预测结果 ,输出数据路径)