مطالب این بخش: در این بخش، واژگان یادگیری ماشین ای را که در سراسر scikit-learn استفاده میکنیم را معرفی میکنیم و یک مثال یادگیری ساده را ارائه میدهیم.
یادگیری ماشین: محیط مسئله
به طور کلی، یک مسئله یادگیری مجموعه ای n نمونه داده را در نظر میگیرد و سپس سعی میکند خصوصیات داده های ناشناخته (دیده نشده) را پیشبینی کند. اگر هر نمونه بیش از یک عدد واحد باشد، به عنوان مثال یک ورودی چند بعدی باشد (یا داده های چند متغیره) گفته میشود که مسئله دارای چندین خواص یا ویژگی است.
مسائل یادگیری به چند دسته تقسیم میشوند:
یادگیری با نظارت، که در آن داده ها همراه با ویژگی هایی ارائه میشوند که میخواهیم آن ها را پیش بینی کنیم (برای رفتن به صفحه یادگیری با نظارت در scikit-learn کلیک کنید) این مسائل میتوانند به دو صورت باشند:
طبقه بندی، نمونه ها به دو یا چند کلاس (طبقه) تعلق دارند و ما میخواهیم با استفاده از داده های برچسب خورده یاد بگیریم که چطور داده های بدون برچسب را پیش بینی کنیم. یک مثال از مسائل طبقه بندی شناسایی ارقام دست نویس است، که در آن هدف اختصاص هر بردار ورودی به یکی از دسته های گسسته است. در فرم گسسته یادگیری با نظارت تعداد محدودی دسته بندی وجود دارد و برای هر یک از n نمونه ارائه شده تلاش میکنیم برچسب گذاری را با دسته یا کلاس صحیح انجام دهیم.
رگرسیون، اگر خروجی مورد نظر شامل یک یا چند متغیر پیوسته باشد، این کار رگرسیون نامیده میشود. یک نمونه از مساله رگرسیون، پیش بینی طول ماهی سالمون بر اساس سن و وزن آن.
یادگیری بدون نظارت، در آن داده های آموزشی شامل مجموعه ای از بردار های ورودی X بدون هیچ گونه مقادیری مرتبط به هدف. هدف این مسائل ممکن است کشف گروهی از نمونه های مشابه در داخل داده ها باشد، که خوشه بندی نامیده میشود. یا برای تعیین توزیع داده ها در فضای ورودی، که به عنوان تخمین چگالی شناخته میشود. یا تبدیل داده ها از ابعاد بالا به ۲ یا سه بعدی به منظور مصور سازی داده ها. (اینجا کلیک کنید تا به صفحه یادگیری بدون نظارت بروید)
مجموعه آموزش و مجموعه آزمون: یادگیری ماشین در مورد یادگیری تعدادی ویژگی از یک مجموعه داده و سپس تست کردن آن ویژگی ها در برابر مجموعه داده دیگری است. یک کار معمول در یادگیری ماشین، ارزیابی یک الگوریتم توسط مجموعه داده تقسیم شده به دو مجموعه است. یکی از آن ها را مجموعه آموزشی مینامیم، که با استفاده از آن ویژگی ها را یاد میگیریم و مجموعه دیگر را مجموعه آزمون مینامیم، که با استفاده از آن ویژگی های آموخته شده را مورد آزمایش قرار میدهیم.