scikit-learn
به همراه چند دیتاست استاندارد ارائه شده است،
به عنوان مثال: مجموعه داده iris و اعداد برای
طبقه بندی و مجموعه داده دیابت برای رگرسیون.
در ادامه ما مفسر پایتون را با استفاده از shell اجرا میکنیم
و سپس مجموعه داده های iris
و اعداد
را بارگیری میکنیم.
قرارداد ما این است که $
نشان دهنده ی اعلان پیوسته است درحالی که <<<
نشان دهنده اعلان مفسر پایتون است.
$ python
>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> digits = datasets.load_digits()
یک دیتاست شبیه به یک شی دیکشنری است که تمام داده ها و متا داده های مربوط به داده را در خود نگه میدارد. این داده ها در
data.
ذخیره میشوند، که یک آرایه
n_samples, n_features
است.
در مسائل با نظارت یک یا چند متغیر پاسخ در
target.
ذخیره میشود.
جرئیات بیشتر در مورد مجموعه داده های مختلف را میتوان در یک
بخش اختصاصی
پیدا کرد.
به عنوان مثال، در مورد مجموعه داده اعداد، digits.data
به ویژگی هایی دسترسی میدهد که میتوان از آنها برای طبقه بندی نمونه های ارقام استفاده کرد:
>>> print(digits.data)
[[ 0. 0. 5. ... 0. 0. 0.]
[ 0. 0. 0. ... 10. 0. 0.]
[ 0. 0. 0. ... 16. 9. 0.]
...
[ 0. 0. 1. ... 6. 0. 0.]
[ 0. 0. 2. ... 12. 0. 0.]
[ 0. 0. 10. ... 12. 1. 0.]
و label ،digits.target
ها را برای مجموعه داده رقمی ارائه میدهد، این عدد متناظر به هر تصویر رقمی است که ما سعی در یادگیری آن داریم:
>>> digits.target
array([0, 1, 2, ..., 8, 9, 8])
شکل داده آرایه ها
داده ها همواره یک آرایه دو بعدی، به شکل (n_samples, n_features) میباشند، هر چند داده های اصلی ممکن است شکل متفاوتی داشته باشند. در مورد ارقام، هر نمونه اصلی به شکل یک تصویر از آرایه (۸، ۸) است که به شکل زیر قابل دسترسی است:
>>> digits.images[0]
array([[ 0., 0., 5., 13., 9., 1., 0., 0.],
[ 0., 0., 13., 15., 10., 15., 5., 0.],
[ 0., 3., 15., 2., 0., 11., 8., 0.],
[ 0., 4., 12., 0., 0., 8., 8., 0.],
[ 0., 5., 8., 0., 0., 9., 8., 0.],
[ 0., 4., 11., 0., 1., 12., 7., 0.],
[ 0., 2., 14., 5., 10., 12., 0., 0.],
[ 0., 0., 6., 13., 10., 0., 0., 0.]])
مثال ساده در این مجموعه داده نشان میدهد که چگونه میتوان با شروع از مشکل اصلی، داده ها را برای استفاده در scikit-learn شکل داد.
بارگیری از مجموعه داده های خارجی
برای بارگیری از یک مجموعه داده خارجی، لطفا به بارگیری مجموعه داده های خارجی مراجعه کنید.