隠れ層が1つでユニットが10の時は10の線分から構成される。
MLPClassifierのパラメータhidden_layerで隠れ層のユニット数を指定し、alpha値でL2正則化を制御することが出来る。
alphaを大きくすると正則化が強くなり、多くが重み0に近づく。
adamはスケールに敏感であるため、z変換が必要。
lbfgsは頑健であるが、モデルが大きい場合や大規模なデータセットに対しては訓練に時間がかかる。
より高度なSGDはさらに多くのパラメータがある。初心者はadamとlbfgsを使っておけば良い。