Name: یادگیری تقویتی
SKU: 6700
Price: 1400000 IRT
Availability: InStock

حالت مطالعه

نکته مهم در مورد دوره های ربوتک دوره های آکادمی ربوتک بر بستر نرم افزار spot player هستند و شما پس از ثبت نام باید لایسنس خود را فعال کنید و به محتوای دوره دسترسی خواهید داشت. برای جزییات بیشتر میتوانید ویدیو "نحوه دسترسی به محتوا" از همین صفحه را مشاهده کنید.

درباره دوره

یادگیری تقویتی و مفاهیمی که نمیفهیم !

مباحث یادگیری تقویتی در نگاه اول خیلی خوش قلق نیست. خیلی ساده نمیفهمیم. بر خلاف یادگیری ماشین که شاید همه چیز شفاف تر و واضح تر باشه، در یادگیری تقویتی مفاهیم شاید در نگاه اول کمی گنگ به نظر بیان. حس کنیم همه اینها شبیه به هم هستند و چه فرقی دارند و خلاصه خیلی دلمون صاف نباشه باهاش.

اینجا دقیقا برای همین هست که این مشکل رو حل کنیم. ما میخوایم در دوره یادگیری تقویتی اول مفاهیم رو به زبان ساده توضیح بدیم و قشنگ بفهمیم. در مرحله بعد الگوریتم ها رو به شکل خط به خط توضیح بدیم و با پایتون پیاده سازی کنیم به همون شکل و خروجی اون ها رو ببینیم تا درک بهتری بدست بیاریم.

اگر میخواید مشکلتون با یادگیری تقویتی رو یک بار برای همیشه حل کنید، این دوره رو از دست ندید.

برای درک بهتر این دوره لازم هست که شما با پایتون آشنا باشید و بهتر هست که مفاهیم یادگیری ماشین و یادگیری عمیق رو هم بدونید. سه تا دوره زیر مربوط به همین مباحث هست که از لینک زیر میتونید ببینید و اگر دوست داشتید ثبت نام کنید:

علاوه بر اون ما شروع کردیم و مباحث یادگیری تقویتی عمیق رو هم داریم پوشش میدیم. فعلا کارگاه اول از سلسله کارگاه های یادگیری تقویتی عمیق با نام الگوریتم های Policy Gradient برگزار شده که میتونید از لینک زیر اون رو ببینید و اگر دوست داشتید ثبت نام کنید:

کارگاه Policy Gradient

نظرات شرکت کنندگان

دمو دوره یادگیری تقویتی

پخش ویدیو

ویدیو های بیشتر در youtube (کلیک کنید)

سرفصل های دوره یادگیری تقویتی

هفته اول دوره

مفاهیم بنیادین یادگیری تقویتی

بخش اول :‌معرفی و آشنایی با RL ویدئو

معرفی دوره و منابع مورد استفاده و آشنایی با دنیایی یادگیری تقویتی

بخش دوم :‌المان های کلیدی ویدئو

معرفی المان های کلیدی در یک مساله یادگیری تقویتی

بخش سوم : چند مثال و مفهوم امید ریاضی ویدئو

معرفی چند مثال از دنیای RL و بررسی پیشنیاز مهم آمار و احتمالی

بخش چهارم :‌ خانواده مارکوف ویدئو

آشنایی با MP و MRP و MDP

بخش پنجم :‌ اصطلاحات مهم ویدئو

معرفی اصطلاحات و مفاهیم کلیدی در دنیای RL

هفته دوم دوره

کار با کتابخانه Gym برای شبیه سازی محیط ها

بخش اول :‌ آشنایی با V(s) و Q(s,a) ویدئو

توابع ارزش یک state و ارزش یک action در یک state

بخش دوم :‌ کتابخانه gym - قسمت اول ویدئو

معرفی کلی کتابخانه gym و آشنایی با محیط ها

بخش سوم :‌ کتابخانه gym - قسمت دوم ویدئو

آشنایی با محیط Frozen Lake و کار با اجزای مختلف این محیط

بخش چهارم :‌ کتابخانه gym - قسمت سوم ویدئو

آشنایی با محیط CartPole و کار با اجزای مختلف محیط

بخش پنجم : معادله Bellman - قسمت اول ویدئو

معادله بلمن و بررسی مفهومی آن برای تابع ارزش یک state

بخش ششم: معادله Bellman - قسمت دوم ویدئو

بررسی مفهومی معادله بلمن برای تابع ارزش یک action در یک state

بخش هفتم : ارزیابی یک Policy ویدئو

معرفی کلی الگوریتم Policy Iteration و حل مثال عددی ارزیابی یک سیاست

هفته سوم دوره

معادله Bellman و Dynamic Programming

بخش اول :‌ ارزیابی یک سیاست و کدنویسی آن - قسمت اول ویدئو

بخش دوم :‌ ارزیابی یک سیاست و کدنویسی آن - قسمت دوم ویدئو

بخش سوم : بهبود بخشیدن سیاست و پیاده سازی آن ویدئو

بخش چهارم : پیاده سازی الگوریتم policy iteration ویدئو

بخش پنجم : الگوریتم Value Iteration و حل یک مثال عددی ویدئو

بخش ششم : پیاده سازی الگوریتم Value Iteration ویدئو

هفته چهارم دوره

روش های Monte Carlo در یادگیری تقویتی

بخش اول :‌ ایده مونت کارلو و درک آن ویدئو

بخش دوم : آشنایی با بازی BlackJack و defaultdict ویدئو

بخش سوم : پیاده سازی MC برای تخمین ارزش state ها - بخش اول ویدئو

بخش چهارم: پیاده سازی MC برای تخمین ارزش state ها - بخش دوم ویدئو

بخش پنجم: پیاده سازی بهینه MC برای تخمین ارزش state ها - بخش اول ویدئو

بخش ششم :پیاده سازی بهینه MC برای تخمین ارزش state ها - بخش دوم ویدئو

هفته پنجم دوره

روش های Temporal Difference در یادگیری تقویتی

بخش اول :‌ استفاده از مونت کارلو برای محاسبه سیاست بهینه ویدئو

بخش دوم :‌قسمت اول پیاده سازی مونت کارلو و محاسبه Q(s,a) ویدئو

بخش سوم :‌قسمت دوم پیاده سازی مونت کارلو و محاسبه سیاست بهینه. ویدئو

بخش چهارم :‌ معرفی ایده Temporal Difference ویدئو

بخش پنجم: مثال عددی برای درک بهتر ایده Temporal Difference ویدئو

بخش ششم :‌ استفاده از Temporal Difference برای محاسبه ارزش state ها. ویدئو

هفته ششم دوره

ادامه مباحث Temporal Difference و پیاده سازی الگوریتم ها

بخش اول : الگوریتم SARSA ویدئو

بررسی الگوریتم SARSA و شهود آن و فرمول آپدیت آن

بخش دوم : پیاده سازی اول SARSA ویدئو

پیاده سازی الگوریتم SARSA با شبه کد دانشگاه استنفورد

بخش سوم : پیاده سازی دوم الگوریتم SARSA ویدئو

پیاده سازی الگوریتم SARSA با شبه کد کتاب Sutton

بخش چهارم :‌الگوریتم Q-Learning ویدئو

الگوریتم Q-Learning و شهود و پیاده سازی آن

بخش پنجم : شبکه عصبی با Tensorflow و Keras ویدئو

بخش اول پیاده سازی شبکه های عصبی در کتابخانه تنسورفلو و کراس

بخش ششم : شبکه عصبی با Tensorflow و Keras - قسمت ۲ ویدئو

بخش دوم پیاده سازی شبکه های عصبی در کتابخانه تنسورفلو و کراس

هفته هفتم دوره

یادگیری تقویتی عمیق - الگوریتم DQN

بخش اول : ایده یادگیری تقویتی عمیق ویدئو

بررسی ایده یادگیری تقویتی عمیق و نحوه استفاده از شبکه عصبی در RL

بخش دوم : نحوه بدست آورده دیتاست و لیبل ها ویدئو

ایده دیتاست و لیبل ها و بررسی شبه کد DQN

بخش سوم : نکات تکمیلی و آشنایی با deque ویدئو

نکات تکمیلی مقاله DQN و آشنایی با deque

بخش چهارم : پیاده سازی DQN - بخش اول ویدئو

قسمت اول از پیاده سازی کلی و نوشتن کلاس DQN و تابع e-greedy

بخش پنجم : پیاده سازی DQN - بخش دوم ویدئو

قسمت دوم از پیاده سازی و نوشتن تابع train و آموزش شبکه عصبی

بخش ششم : ایده Target Network ویدئو

بررسی مقاله آپدیت شده DQN و شبکه Target

دسترسی به محتوا (پس از ثبت نام)

گروه پشتیبانی تلگرامی

لینک گروه تلگرامی

پس از ثبت نام به لینک گروه دسترسی خواهید داشت.

لینک گروه تلگرامی

خصوصی

این بخش خصوصی می باشد. برای دسترسی کامل به دروس این دوره باید این دوره را خریداری نمایید.

مدرس دوره یادگیری تقویتی

حامد قاسمی

دانشجوی دکترای هوش مصنوعی دانشگاه تهران
پژوهشگر آزمایشگاه تعامل انسان و ربات دانشگاه تهران

سوالات متداول

پشتیبانی کلاس ها به چه شکلی است ؟

برای هر کلاس یک گروه تلگرامی ویژه ساخته می شود که در آن استاد دوره به همراه حل تمرین و سایر شرکت کنندگان در آن گروه هستند و شما می توانید سوالات خود را بپرسید و مدرس دوره و یا شرکت کنندگان به سوالات شما پاسخ دهند.

ثبت نام گروهی تخفیف دارد ؟

بله – اگر به صورت گروهی ثبت نام کنید، آکادمی ربوتک برای شما تخفیف ویژه ثبت نام گروهی را در نظر می گیرد. برای دریافت تخفیف گروهی خود میتوانید به آیدی پشتیبانی آکادمی ربوتک به آدرس @robotech_support پیام دهید.

این دوره پیشنیاز دارد ؟

پیشنیاز اصلی این دوره پایتون می باشد. بهتر است که با مفاهیم شبکه های عصبی و CNN ها نیز آشنا باشید چون در دو هفته پایانی این مباحث بسیار کلیدی خواهند بود.

آیا در پایان دوره مدرک داده می شود ؟

بله این دوره دارای مدرک نمره دار می باشد و به زبان انگلیسی صادر خواهد شد. نمره نهایی شما مطابق تمرینات انجام شده توسط شما و پروژه پایانی دوره (در صورت وجود) در نظر گرفته می شود.

امکان پرداخت اقساطی وجود دارد ؟

در آکادمی ربوتک به دلیل شرایط سخت اقتصادی کشور همواره تلاش کرده ایم که دوره ها را با پایین ترین قیمت ممکن برگزار کنیم که تا حدی نیز موفق بوده ایم. اما متاسفانه امکان پرداخت اقساطی دوره وجود ندارد.

آیا همه افراد می توانند در دوره ها شرکت کنند؟

بله – هیچگونه محدودیتی در شرکت کنندگان وجود ندارد و تمامی افراد چه دانشجو و چه غیر دانشجو می توانند در این دوره ها شرکت کنند.