×
۱۷۰,۰۰۰ تومان

آموزش یادگیری تقویتی با متلب MATLAB

آموزش یادگیری تقویتی با متلب MATLAB

هزینه آموزش
۱۷۰,۰۰۰ تومان

تعداد دانشجو
۷۱۵ نفر
مدت زمان
۱۲ ساعت و ۳۹ دقیقه
محتوای این آموزش
تضمین کیفیت
۱۱ بازخورد (مشاهده نظرات)

در یادگیری تقویتی عامل از طریق تعامل با محیط تجربه کسب می‌کند و یاد می‌گیرد کارهایی را انجام دهد که منجر به دریافت بیشترین پاداش در آینده شود. یادگیری تقویتی در حقیقت روش محاسباتی برای یادگیری از طریق تجربه و تعامل با محیط و همواره در تلاش برای ماکزیمم‌ کردن پاداش‌ها در بلندمدت است. به بیان دیگر، یادگیری تقویتی یک نگاشت از موقعیت به عمل است، یعنی نشان می‌دهد در هر موقعیت یا حالتی چه عملی باید انجام شود تا به هدف برسیم. در این آموزش به بخش مقدماتی یادگیری تقویتی می‌پردازیم و شالوده این الگوریتم را یاد می‌گیریم.

آموزش یادگیری تقویتی با متلب MATLAB

تعداد دانشجو
۷۱۵ نفر
مدت زمان
۱۲ ساعت و ۳۹ دقیقه
هزینه آموزش
۱۷۰,۰۰۰ تومان
محتوای این آموزش
۱۶ بازخورد (مشاهده نظرات)

امید زندی

دانشجوی دکتری تخصصی مهندسی برق – کنترل

ایشان دانشجوی دکتری مهندسی برق – گرایش کنترل در دانشگاه علم و صنعت ایران هستند و موفق به کسب رتبه اول (مدال طلا) المپیاد علمی دانشجویی مهندسی برق کشور در سال ۹۴ و همچنین رتبه سوم (مدال برنز) المپیاد علمی دانشجویی کشوری در سال ۱۳۹۳ در رشته برق شده‌اند.

توضیحات تکمیلی

ایده یادگیری از طریق تعامل با محیط، احتمالا اولین تفکری باشد که در ذهن همه ما خطور می‌کند. اگر به طریقه یادگیری راه‌ رفتن در یک نوزاد نگاه کنیم، می‌بینیم که نوزاد از طریق تعامل با محیط خودش راه ‌رفتن را یاد می‌گیرد، چندین و چندین بار بلند می‌شود و می‌افتد تا اینکه در نهایت یاد می‌گیرد که چگونه بر روی دو پای خودش بایستد. موضوع یادگیری تقویتی (Reinforcement Learning) نیز به طور دقیق به همین موضوع اشاره دارد. عامل (Agent) که می‌تواند یاد بگیرد، همانند نوزاد از طریق تعامل با محیط اطراف خودش یک شناخت کافی از آن پیدا می‌کند و سپس عمل‌هایی را انجام خواهد داد که منجر به رسیدن به هدف می‌شود.

سه روش اساسی برای یادگیری در هوش مصنوعی، یادگیری نظارت‌‌‌شده (Supervised)، نظارت‌‌‌نشده (Unsupervised) و تقویتی (Reinforcement) است. در یادگیری نظارت‌‌شده شده یک سری سیگنال‌های لیبل‌دار وجود دارند و آن‌ها را به عامل نشان می‌دهیم. همانند این مثال که عکس هزار خودرو را به ربات نشان بدهیم تا آن را یاد بگیرد. بعد از یادگیری، با استفاده از داده‌های تست، یادگیری عامل ارزیابی می‌شود. دسته‌بندی اشیا و پیش‌بینی شاخص بورس دو مورد از کاربردهای یادگیری نظارت‌‌شده است اما در یادگیری نظارت‌‌‌نشده (غیر نظارتی)، داده لیبل‌دار وجود ندارد و خود عامل باید الگوهای موجود در داخل داده‌ها را پیدا کند. خوشه‌بندی جزو یکی از مثال‌های مهم این حوزه است.

در یادگیری تقویتی نیز داده لیبل‌دار وجود ندارد ولی عامل از طریق تعامل با محیط تجربه کسب می‌کند و یاد می‌گیرد کارهایی را انجام دهد که منجر به دریافت بیشترین پاداش در آینده شود. یادگیری تقویتی در حقیقت روش محاسباتی برای یادگیری از طریق تجربه و تعامل با محیط و همواره در تلاش برای ماکزیمم‌ کردن پاداش‌ها در بلندمدت است. به بیان دیگر، یادگیری تقویتی یک نگاشت از موقعیت به عمل است، یعنی نشان می‌دهد در هر موقعیت یا حالتی چه عملی باید انجام شود تا به هدف برسیم. در این آموزش به بخش مقدماتی یادگیری تقویتی می‌پردازیم و شالوده این الگوریتم را یاد می‌گیریم.

 

فهرست سرفصل‌ها و رئوس مطالب مطرح شده در اين مجموعه آموزشی، در ادامه آمده است:
  • درس یکم: مفاهیم مقدماتی یادگیری تقویتی - بخش یکم 
    • انواع الگوریتم‌های یادگیری ماشین
    • یادگیری نظارت‌شده
    • یادگیری غیر نظارتی
  • درس دوم: مفاهیم مقدماتی یادگیری تقویتی - بخش دوم
    • یادگیری تقویتی
    • اجزای یادگیری تقویتی
    • محیط
    • عامل
    • عمل و سیاست
    • پاداش
    • Exploration و Exploitation
  • درس سوم: مساله Multi-Armed Bandit - بخش یکم 
    • مساله Multi-Armed Bandit
    • سیاست‌های Greedy و ε-greedy
    • پیاده‌سازی افزایشی تابع ارزش 
    • کدنویسی سیاست‌های Greedy و ε-greedy
  • درس چهارم: مساله Multi-Armed Bandit - بخش دوم
    • مسائل غیر ایستا
    • الگوریتم Constant-Alpha
    • مقادیر اولیه خوشبینانه
  • درس پنجم: مساله Multi-Armed Bandit - بخش سوم
    • الگوریتم باند بالای اطمینان (UCB) 
    • کدنویسی UCB در متلب (MATLAB)
    • الگوریتم گرادیان تصادفی صعودی (SGA) برای حل مساله Bandit
  • درس ششم: مساله Multi-Armed Bandit - بخش چهارم
    • کدنویسی SGA در متلب
    • مقایسه روش‌ها
  • درش هفتم: فرایندهای تصمیم‌گیری مارکوف محدود (FMDP) - بخش یکم 
    • فرایندهای تصمیم‌گیری مارکوف (MDP)
    • اجزای MDP 
    • دینامیک MDP 
  • درس هشتم: فرایندهای تصمیم‌گیری مارکوف محدود (FMDP) - بخش دوم
    • توابع احتمال MDP 
    • حل چند مثال از MDP 
    • بازگشت (Return) و دوره (Episode) 
    • حل چند مثال از بازگشت 
  • درس نهم: فرایندهای تصمیم‌گیری مارکوف محدود (FMDP) - بخش سوم
    • سیاست و تابع ارزش 
    • ارزش حالت
    • ارزش حالت -‌ عمل
    • معادلات بلمن برای ارزش‌ها
    • حل معادلات بلمن برای مساله Grid World
    • حل مثال از معادلات بلمن
    • سیاست و توابع ارزش بهینه
    • معادلات بهینگی بلمن برای ارزش‌ها
    • حل مثال از معادلات بهینگی بلمن
    • حل مثال از تعیین سیاست بهینه
  • درس دهم: برنامه‌ریزی پویا - بخش یکم 
    • برنامه‌ریزی پویا (DP)
    • ارزیابی سیاست (Policy Evaluation) 
    • مقدمه‌ای بر روش ژاکوبی (Jacobi Method) و گاوس-سایدل (Gauss–Seidel)
    • کدنویسی محیط بازی در متلب (MATLAB) 
    • کدنویسی ارزیابی سیاست در متلب 
  • درس یازدهم: برنامه‌ریزی پویا - بخش دوم
    • بهبود سیاست (Policy Improvement)
    • کدنویسی بهبود سیاست در متلب 
    • کدنویسی تولید یک Episode از بازی با سیاست مشخص 
    • تکرار سیاست (Policy Iteration)
  • درس دوازدهم: برنامه‌ریزی پویا - بخش سوم 
    • کدنویسی تکرار سیاست در متلب
    • تکرار ارزش (Value Iteration)
    • کدنویسی تکرار ارزش در متلب
    • تکرار سیاست تعمیم‌یافته (Generalized Policy Iteration)
  • درس سیزدهم: روش‌های مونت‌کارلو - بخش یکم
    • مقدمه‌ای بر روش‌ مونت کارلو
    • تخمین ارزش حالت‌ها با MC
    • الگوریتم‌های First Visit و Every Visit
    • کدنویسی تخمین ارزش حالت‌ها با MC در متلب
    • تخمین MC برای محیط‌های غیر ایستا
    • تخمین ارزش حالت‌-عمل‌ها با MC
  • درس چهاردهم: روش‌های مونت‌کارلو - بخش دوم
    • الگوریتم Exploring Starts
    • کدنویسی تخمین ارزش حالت‌-عمل‌ها با MC در متلب
    • Control On-policy Monte Carlo
    • کدنویسی الگوریتم On-policy در متلب
    • قضیه نمونه‌برداری اعتباری
    • حل مثال از قضیه نمونه‌برداری اعتباری 
    • Off-Policy Monte Carlo Control 
  • درس پانزدهم: یادگیری با تفاضل مکانی (Temporal Difference) 
    • مقایسه روش‌های DP, MC و TD
    • الگوریتم پیش‌بینی TD(0) 
    • کدنویسی TD(0) در متلب
    • مزایای روش‌های پیش‌بینی TD 
    • الگوریتم SARSA - کنترل On-Policy
    • الگوریتم Q-Learning - کنترل Off-Policy 
    • کدنویسی الگوریتم Q-Learning در متلب
    • تست الگوریتم Q-Learning در محیط جدید

 

مفید برای
  • مهندسی کامپیوتر - نرم‌افزار
  • مهندسی برق   
  • مهندسی کنترل
  • مهندسی رباتیک
  • هوش مصنوعی
  • مهندسی مکانیک
  • مهندسی صنایع

پیش نیاز


آنچه در این آموزش خواهید دید:

آموزش ویدئویی مورد تائید فرادرس
فایل برنامه ها و پروژه های اجرا شده
فایل PDF یادداشت‌ های ارائه مدرس

نرم افزارهای مرتبط با آموزش

MATLAB 2021a

پیش نمایش‌ها

۱. مفاهیم مقدماتی یادگیری تقویتی - بخش یکم
۲. مفاهیم مقدماتی یادگیری تقویتی - بخش دوم
۳. مساله Multi-Armed Bandit - بخش یکم
۴. مساله Multi-Armed Bandit - بخش دوم
۵. مساله Multi-Armed Bandit - بخش سوم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۶. مساله Multi-Armed Bandit - بخش چهارم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۷. فرایندهای تصمیم‌گیری مارکوف محدود (FMDP) - بخش یکم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۸. فرایندهای تصمیم‌گیری مارکوف محدود (FMDP) - بخش دوم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۹. فرایندهای تصمیم‌گیری مارکوف محدود (FMDP) - بخش سوم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۱۰. برنامه‌ریزی پویا - بخش یکم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۱۱. برنامه‌ریزی پویا - بخش دوم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۱۲. برنامه‌ریزی پویا - بخش سوم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۱۳. روش‌های مونت‌کارلو - بخش یکم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۱۴. روش‌های مونت‌کارلو - بخش دوم
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
۱۵. یادگیری با تفاضل مکانی (Temporal Difference)
مشاهده این پیش‌نمایش، نیازمند عضویت و ورود به سایت (+) است.
این آموزش شامل ۱۶ جلسه ویدئویی با مجموع ۱۲ ساعت و ۳۹ دقیقه است.
با تهیه این آموزش، می‌توانید به همه بخش‌ها و جلسات آن، دسترسی داشته باشید.

راهنمای سفارش آموزش‌ها

آیا می دانید که تهیه یک آموزش از فرادرس و شروع یادگیری چقدر ساده است؟

(راهنمایی بیشتر +)

در مورد این آموزش یا نحوه تهیه آن سوالی دارید؟
  • با شماره تلفن واحد مخاطبین ۵۷۹۱۶۰۰۰ (پیش شماره ۰۲۱) تماس بگیرید. - تمام ساعات اداری
  • با ما مکاتبه ایمیلی داشته باشید (این لینک). - میانگین زمان پاسخ دهی: ۳۰ دقیقه


اطلاعات تکمیلی

نام آموزش آموزش یادگیری تقویتی با متلب MATLAB
ناشر فرادرس
شناسه اثر ۸–۱۲۴۵۲–۰۷۹۵۹۴ (ثبت شده در مرکز رسانه‌های دیجیتال وزارت ارشاد)
کد آموزش FVML002
مدت زمان ۱۲ ساعت و ۳۹ دقیقه
زبان فارسی
نوع آموزش آموزش ویدئویی (نمایش آنلاین + دانلود)
حجم دانلود ۱ گیگابایت (کیفیت ویدئو HD با فشرده سازی انحصاری فرادرس)


تضمین کیفیت و گارانتی بازگشت هزینه
توجه: کیفیت این آموزش توسط فرادرس تضمین شده است. در صورت عدم رضایت از آموزش، به انتخاب شما:
  • ۱۰۰ درصد مبلغ پرداختی در حساب کاربری شما شارژ می‌شود.
  • و یا ۷۰ درصد مبلغ پرداختی به حساب بانکی شما بازگشت داده می‌شود.
آموزش‌های مرتبط با آموزش یادگیری تقویتی با متلب MATLAB




نظرات

تا کنون ۷۱۵ نفر از این آموزش استفاده کرده اند و ۱۱ نظر ثبت شده است.
Mohammad Reza
Mohammad Reza
۱۴۰۱/۰۲/۲۱

سلام. بهتر است که ویدئو هایی تهیه شود که علاوه بر مسائل برنامه نویسی، مسائل آکادمیک دانشگاه هم حل شود، تا درس بهتر جا بیافتد.

محمدرضا
محمدرضا
۱۴۰۱/۰۲/۰۳

سلام این آموزش بسیار عالی بود به کسایی ک میخوان یادگیری تقویتی رو شروع کنند حتما پیشنهاد میکنم، امیدوارم سطح پیشرفته این آموزش هم به زودی منتشر شود.

مجتبی
مجتبی
۱۴۰۱/۰۱/۲۸

این آموزش بهترین چیزی بود که تا به حال از مجموعه فرادرس تهیه کرده ام. آقای مهندس زندی، بسیار متشکرم.

مجید
مجید
۱۴۰۰/۱۱/۰۴

روند آموزش خیلی مناسب بود و خیلی خوب آموزش رو با حل تمرین جلو میبردند.

کوثر
کوثر
۱۴۰۰/۰۹/۱۹

سلام. وقتتون بخیر. خیلی ممنون از آموزش عالی و کاربردیتون، فقط جای مباحث Policy gradient در این اموزش خالی هست. کاش یک اموزش هم برای این مباحث بذارید.

امید زندی
امید زندی
مدرس
۱۴۰۰/۰۹/۲۸

سلام
وقت بخیر
ان شا الله در آموزش پیشرفته یادگیری تقویتی policy gradient و کلی مبحث دیگر تدریس خواهد شد.

محمد
محمد
۱۴۰۰/۰۷/۰۹

سلام استاد، باتشکر از آموزشتون
در درس نهم (مارکوف محدود) آیا می شود در محاسبه *v یا *q بازی grid world، در بیرون از مرزها *v یا *q را صفر گرفت و فقط با پاداش منفی محاسبات را انجام داد؟ (تست شد جواب ها یکسان شدند.) آیا در حالت کلی هم می شود فقط با پاداش منفی مرزها را مشخص کرد (محاسبات تقریبی: برنامه ریزی پویا، مونت کارلو و...)؟

امید زندی
امید زندی
مدرس
۱۴۰۰/۰۷/۱۰

سلام
وقت بخیر
اگر منظور سوال‌تان را درست متوجه شده باشم باید خدمتتان عرض کنم که ما *v یا *q را فقط برای حالت‌های داخل بازی تعریف می‌کنیم و فضای خارج از صفحه Grid World جز بازی نیست و برای آن *v یا *q تعریف نمی‌کنیم. مسائلی یادگیری تقویتی بر پایه مدل مارکوف محدود هستند و طبق این مدل اگر در یک خانه‌ای عمل مشخصی انجام شود، خانه بعدی به صورت یکتا باید در داخل همان بازی تعریف شود. اینطوری نباشد که با یک عمل به حالتی منتقل شویم که در ابتدا اونو درنظر نگرفته باشیم.

محمد
محمد
۱۴۰۰/۰۶/۱۷

سلام استاد، باتشکر از آموزشتون
آیا در حالت UCB، (هرچند که Exploration در فرمول انتخاب اکشن اتفاق می افتد) می شود مثل روش e-Greedy از epsilon برای Exploration جداگانه استفاده کرد؟

امید زندی
امید زندی
مدرس
۱۴۰۰/۰۶/۱۸

بله به نظر مشکلی ندارد ولی احتمال واریانس نوسانات ارزش عمل‌ها را بیشتر خواهد کرد. خود UCB به صورت دوره‌ای عمل‌های غیرحریصانه را هم تست می‌کند و جست‌وجو را دارد. اما برای جست‌وجوی بیشتر میشه اپسیلون‌گریدی را هم اضافه کرد ولی به نظرم خیلی نیاز ندارد.

محمد
محمد
۱۴۰۰/۰۶/۱۷

سلام استاد، باتشکر از آموزشتون
آیا در حالت UCB، برای تعیین Q در ابتدای الگوریتم، می شود از هر دو روش "sample-average" (با Q1 خوش بینانه) و 'constant-alpha' (با Q صفر در ابتدا) استفاده کرد؟

امید زندی
امید زندی
مدرس
۱۴۰۰/۰۶/۱۸

سلام
وقت بخیر
بله مشکلی ندارد. الگوریتم UCB با فرض داشتن ارزش‌ها یک عمل را انتخاب می کند و برای تعیین ارزش ها هم هر دو روش میانگین نمونه ها و آلفای ثابت قابل استفاده است.

محمد
محمد
۱۴۰۰/۰۶/۱۵

سلام استاد، باتشکر از آموزشتون، آیا در حالت constant-alpha از epsilon در قسمت 'Exploration' استفاده می شود؟
(در فایل eGreedy3.m درس پنجم در حالت constant-alpha از epsilon در قسمت 'Exploration' استفاده استفاده شده است.)

امید زندی
امید زندی
مدرس
۱۴۰۰/۰۶/۱۶

سلام
وقت بخیر
خیلی ممنون از سوالی که مطرح فرمودید.
الگوریتم آلفای ثابت فقط برای محاسبه ارزش عمل‌ها است نه برای ایجاد جست‌وجو در یادگیری تقویتی

دلیل استفاده از آلفای ثابت هم این بود که اگر محیط در حال تغییر باشد سرعت همگرایی ارزش عمل‌ها به مقادیر جدید بالاتر از روش میانگین جبری نمونه ها بشود.
با تشکر
زندی

ناصر
ناصر
۱۴۰۰/۰۵/۲۹

بعد از انتظار برای آموزش یادگیری تقویتی در فرادرس، بسیییار عالی و روان بود این آموزش.
بی صبرانه منتظر آموزش های بعدی یادگیری تقویتی هستیم

برچسب‌ها:
Bellman Equation | Constant-Alpha Algorithm | Control On-policy Monte Carlo | Dynamic Programming | Every Visit Algorithm | Exploitation in Reinforcement Learning | Exploration in Reinforcement Learning | Exploring Starts Algorithm | First Visit Algorithm | FMDP | Gauss–Seidel method | Generalized Policy Iteration | Greedy Policy | Grid World Problem | Jacobi Method | Markov Decision Process | Monte Carlo Method | Multi-Armed Bandit Problem | Off-Policy Control | Off-Policy Monte Carlo Control | On-Policy Control | Policy Evaluation | Q-Learning Algorithm | Reinforcement Learning | Reinforcement Learning in MATLAB | SARSA Algorithm | SGA Algorithm | supervised learning | Temporal Difference | UCB Algorithm | Unsupervised Learning | ε-Greedy Policy | آموزش یادگیری تقویتی | آموزش یادگیری تقویتی با متلب | اجزای MDP | اجزای یادگیری تقویتی | ارزیابی سیاست | الگوریتم Every Visit | الگوریتم Exploring Starts | الگوریتم‌ First Visit | الگوریتم On-policy در متلب | الگوریتم Q-Learning | الگوریتم Q-Learning در متلب | الگوریتم SARSA | الگوریتم باند بالای اطمینان | الگوریتم پیش‌ بینی TD(0) | الگوریتم گرادیان تصادفی | الگوریتم گرادیان تصادفی صعودی | الگوریتم های یادگیری ماشین | الگوریتم یادگیری تقویتی | المان ‌های یادگیری تقویتی | انواع الگوریتم‌ های یادگیری ماشین | بازده برنامه‌ ریزی پویا | بازی Tic-Tac-Toe | برنامه ریزی پویا | برنامه ‌ریزی پویای آسنکرون | برنامه‌ریزی پویا | پاداش یادگیری تقویتی | پپیاده‌ سازی افزایشی تابع ارزش | پیش ‌بینی تفاضل مکانی | پیش‌ بینی مونت‌ کارلو | تابع ارزش | تخمین MC برای محیط‌ های غیر ایستا | تخمین ارزش حالت‌ - عمل‌ها | تخمین ارزش حالت‌ ها با مونت کارلو | تخمین مونت‌ کارلو از تابع ارزش | تست الگوریتم Q-Learning | تعیین سیاست بهینه | تکرار سیاست تعمیم ‌یافته | توابع احتمال MDP | توابع ارزش بهینه | حل مساله Bandit | حل معادلات بلمن | دینامیک MDP | روش ژاکوبی | روش گاوس-سایدل | روش محاسباتی یادگیری تقویتی | روش‌ های مبتنی بر عمل | روش های مونت کارلو | سیاست‌ Greedy | سیاست ε-greedy | سیاست ارزش بهینه | سیاست یادگیری تقویتی | عامل یادگیری تقویتی | فرایندهای تصمیم‌ گیری مارکوف محدود | فرایندهای تصمیم‌گیری مارکوف | قضیه نمونه ‌برداری اعتباری | کد نویسی بازی WorldGrid در متلب | کد نویسی بهبود ارزش در متلب | کد نویسی بهبود سیاست در متلب | کدنویسی SGA در متلب | کدنویسی TD(0) در متلب | کدنویسی UCB در متلب | کدنویسی ارزیابی سیاست در متلب | کدنویسی بهبود سیاست در متلب | کدنویسی تخمین ارزش حالت‌ ها در متلب | کدنویسی تکرار ارزش در متلب | کدنویسی تکرار سیاست در متلب | کدنویسی سیاست‌ Greedy | کدنویسی سیاست‌ ε-greedy | کدنویسی محیط بازی در متلب | کنترل Off-policy | کنترل Off-policy | کنترل Off-policy مونت‌کارلو | کنترل On-Policy | کنترل مونت کارلو | محیط یادگیری تقویتی | مزایای روش‌ های پیش‌ بینی TD | مسائل غیر ایستا | مسالهMulti-Armed Bandit | معادلات بلمن | معادلات بلمن برای ارزش‌ ها | معادلات بهینگی بلمن | معادلات بهینگی بلمن برای ارزش‌ ها | مفهوم مقدماتی یادگیری تقویتی | مقدمه ‌ای بر روش‌ مونت کارلو | نمونه ‌برداری اعتباری در تصمیم ‌گیری | یادگیری با تفاضل مکانی | یادگیری تقویتی | یادگیری تقویتی با متلب | یادگیری در هوش مصنوعی | یادگیری غیر نظارتی | یادگیری نظارت شده | یادگیری نظارت نشده
مشاهده بیشتر مشاهده کمتر
×
فهرست جلسات ۱۶ جلسه ویدئویی
×