本文共 4309 字,大约阅读时间需要 14 分钟。
python scikit
最初于2007年发布的Scikit-learn Python库从头到尾通常用于解决机器学习和数据科学问题。 通用库提供整洁,一致,高效的API和详尽的在线文档。
是一个开放源代码Python库,它具有用于数据分析和数据挖掘的强大工具。 它已获得BSD许可,并基于以下机器学习库构建:
Scikit-learn提供了广泛的内置算法,可充分利用数据科学项目。
这是使用Scikit学习库的主要方法。
工具识别与提供的数据关联的类别。 例如,它们可用于将电子邮件分类为垃圾邮件。
回归涉及创建一个模型,该模型试图理解输入和输出数据之间的关系。 例如,可以使用回归工具来了解股票价格的行为。
回归算法包括:
Scikit学习集群工具用于将具有相同特征的数据自动分组为集合。 例如,客户数据可以基于他们的位置进行细分。
聚类算法包括:
降维减少了用于分析的随机变量的数量。 例如,为了提高可视化效率,可以不考虑外围数据。
降维算法包括:
模型选择算法提供了用于比较,验证和选择在数据科学项目中使用的最佳参数和模型的工具。
可以通过参数调整提高准确性的模型选择模块包括:
Scikit-learn预处理工具对于数据分析过程中的特征提取和规范化非常重要。 例如,您可以使用这些工具来转换输入数据(例如文本),并在分析中应用其功能。
预处理模块包括:
让我们使用一个简单的示例来说明如何在数据科学项目中使用Scikit-learn库。
我们将使用 ,该已包含在Scikit-learn库中。 鸢尾花数据集包含有关三种花的150个详细信息:
数据集包括每种花的以下特征(以厘米为单位):
由于Iris数据集包含在Scikit-learn数据科学库中,因此我们可以按以下方式将其加载到工作区中:
from sklearn import datasets iris = datasets. load_iris ( )
这些命令从sklearn导入数据集模块,然后从数据集中使用load_digits()方法将数据包括在工作空间中。
数据集模块包含几种方法,可以更轻松地了解处理数据。
在Scikit学习中,数据集是指类似于字典的对象,其中包含有关数据的所有详细信息。 数据使用.data键存储,这是一个数组列表。
例如,我们可以利用iris.data输出有关鸢尾花数据集的信息。
print ( iris. data )
这是输出(结果已被截断):
[[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3.6 1.4 0.2] [5.4 3.9 1.7 0.4] [4.6 3.4 1.4 0.3] [5. 3.4 1.5 0.2] [4.4 2.9 1.4 0.2] [4.9 3.1 1.5 0.1] [5.4 3.7 1.5 0.2] [4.8 3.4 1.6 0.2] [4.8 3. 1.4 0.1] [4.3 3. 1.1 0.1] [5.8 4. 1.2 0.2] [5.7 4.4 1.5 0.4] [5.4 3.9 1.3 0.4] [5.1 3.5 1.4 0.3]
我们还使用iris.target为我们提供有关花朵的不同标签的信息。
print ( iris. target )
这是输出:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
如果使用iris.target_names , 则将输出在数据集中找到的标签名称的数组。
print ( iris. target_names )
这是运行Python代码后的结果:
['setosa' 'versicolor' 'virginica']
我们可以使用来生成鸢尾花数据集的视觉描述。 箱形图说明了数据如何通过四分位数分布在平面上。
这是实现此目的的方法:
import seaborn as sns box_data = iris. data #variable representing the data array box_target = iris. target #variable representing the labels array sns. boxplot ( data = box_data , width = 0.5 , fliersize = 5 ) sns. set ( rc = { 'figure.figsize' : ( 2 , 15 ) } )
让我们看看结果:
在横轴上:
垂直轴是以厘米为单位的尺寸。
这是此简单的Scikit学习数据科学教程的全部代码。
from sklearn import datasets iris = datasets. load_iris ( ) print ( iris. data ) print ( iris. target ) print ( iris. target_names ) import seaborn as sns box_data = iris. data #variable representing the data array box_target = iris. target #variable representing the labels array sns. boxplot ( data = box_data , width = 0.5 , fliersize = 5 ) sns. set ( rc = { 'figure.figsize' : ( 2 , 15 ) } )
Scikit-learn是一个通用的Python库,您可以使用它来高效地完成数据科学项目。
如果您想了解更多信息,请查看上的教程,例如Andrey Bulezyuk的有关使用Scikit-learn库创建 。
有什么评价或者疑问吗? 随时在下面分享它们。
翻译自:
python scikit
转载地址:http://bqdzd.baihongyu.com/