مقدمه ای بر یادگیری ماشین با scikit-learn

مطالب این بخش: در این بخش، واژگان یادگیری ماشین ای را که در سراسر scikit-learn استفاده می‌کنیم را معرفی می‌کنیم و یک مثال یادگیری ساده را ارائه می‌دهیم.

یادگیری ماشین: محیط مسئله

به طور کلی، یک مسئله یادگیری مجموعه ای n نمونه داده را در نظر می‌گیرد و سپس سعی می‌کند خصوصیات داده های ناشناخته (دیده نشده) را پیش‌بینی کند. اگر هر نمونه بیش از یک عدد واحد باشد، به عنوان مثال یک ورودی چند بعدی باشد (یا داده های چند متغیره) گفته می‌شود که مسئله دارای چندین خواص یا ویژگی است.

مسائل یادگیری به چند دسته تقسیم می‌شوند:

یادگیری با نظارت، که در آن داده ها همراه با ویژگی هایی ارائه می‌شوند که می‌خواهیم آن ها را پیش بینی کنیم (برای رفتن به صفحه یادگیری با نظارت در scikit-learn کلیک کنید) این مسائل می‌توانند به دو صورت باشند:

  • طبقه بندی، نمونه ها به دو یا چند کلاس (طبقه) تعلق دارند و ما می‌خواهیم با استفاده از داده های برچسب خورده یاد بگیریم که چطور داده های بدون برچسب را پیش بینی کنیم. یک مثال از مسائل طبقه بندی شناسایی ارقام دست نویس است، که در آن هدف اختصاص هر بردار ورودی به یکی از دسته های گسسته است. در فرم گسسته یادگیری با نظارت تعداد محدودی دسته بندی وجود دارد و برای هر یک از n نمونه ارائه شده تلاش می‌کنیم برچسب گذاری را با دسته یا کلاس صحیح انجام دهیم.

  • رگرسیون، اگر خروجی مورد نظر شامل یک یا چند متغیر پیوسته باشد، این کار رگرسیون نامیده می‌شود. یک نمونه از مساله رگرسیون، پیش بینی طول ماهی سالمون بر اساس سن و وزن آن.

یادگیری بدون نظارت، در آن داده های آموزشی شامل مجموعه ای از بردار های ورودی X بدون هیچ گونه مقادیری مرتبط به هدف. هدف این مسائل ممکن است کشف گروهی از نمونه های مشابه در داخل داده ها باشد، که خوشه بندی نامیده می‌شود. یا برای تعیین توزیع داده ها در فضای ورودی، که به عنوان تخمین چگالی شناخته می‌شود. یا تبدیل داده ها از ابعاد بالا به ۲ یا سه بعدی به منظور مصور سازی داده ها. (اینجا کلیک کنید تا به صفحه یادگیری بدون نظارت بروید)

مجموعه آموزش و مجموعه آزمون: یادگیری ماشین در مورد یادگیری تعدادی ویژگی از یک مجموعه داده و سپس تست کردن آن ویژگی ها در برابر مجموعه داده دیگری است. یک کار معمول در یادگیری ماشین، ارزیابی یک الگوریتم توسط مجموعه داده تقسیم شده به دو مجموعه است. یکی از آن ها را مجموعه آموزشی می‌نامیم، که با استفاده از آن ویژگی ها را یاد می‌گیریم و مجموعه دیگر را مجموعه آزمون می‌نامیم، که با استفاده از آن ویژگی های آموخته شده را مورد آزمایش قرار می‌دهیم.