تکنولوژی

مدل سازی لگو های قابل ساخت توسط هوش مصنوعی LegoGPT

مدل سازی لگو های قابل ساخت توسط هوش مصنوعی LegoGPT

سیستم “LegoGPT” دانشگاه کارنگی ملون از بررسی‌های فیزیکی استفاده می‌کند تا اطمینان حاصل کند که مدل‌ها فرو نمی‌ریزند.

محققان دانشگاه کارنگی ملون از  LegoGPT، یک مدل هوش مصنوعی که ساختارهای لگوی پایدار فیزیکی را از دستورات متنی ایجاد می‌کند، رونمایی کردند. سیستم جدید نه تنها مدل‌های لگویی را طراحی می‌کند که با توضیحات متنی (دستورات) مطابقت دارند، بلکه اطمینان می‌دهد که می‌توان آن‌ها را آجر به آجر در دنیای واقعی، چه با دست و چه با کمک ربات، ساخت.

محققان در مقاله‌ی خود که در arXiv منتشر شده است، نوشتند: “برای دستیابی به این هدف، ما یک مجموعه داده‌ی بزرگ‌مقیاس و پایدار فیزیکی از طرح‌های لگو، همراه با شرح‌های مرتبط آن‌ها، ایجاد کردیم و یک مدل زبان بزرگ خودبازگشتی را آموزش دادیم تا آجر بعدی را از طریق پیش‌بینی توکن بعدی پیش‌بینی کند.”

این مدل آموزش‌دیده، طرح‌های لگویی را تولید می‌کند که با دستورات متنی مانند “یک کشتی ساده و کشیده” یا “یک خودروی به سبک کلاسیک با جلوپنجره‌ی برجسته” مطابقت دارند. طرح‌های حاصل ساده هستند و تنها از چند نوع آجر برای ایجاد اشکال ابتدایی استفاده می‌کنند، اما آن‌ها می‌ایستند. یکی از کارکنان آرس تکنیکا صبح امروز پس از دیدن این تحقیق به شوخی گفت: “این هوش مصنوعی، لگو را مثل سال 1974 می‌سازد.”

در مقاله‌ای با عنوان “تولید طرح‌های لگوی پایدار و قابل ساخت از متن”، تیم تحقیقاتی به رهبری آوا پان توضیح داد که بسیاری از مدل‌های تولید سه‌بعدی موجود بر ساخت اشیاء متنوع با هندسه‌ی دقیق تمرکز دارند، اما این طرح‌های دیجیتالی اغلب نمی‌توانند به صورت فیزیکی ساخته شوند. آن‌ها نوشتند: “بدون پشتیبانی مناسب، قطعات طرح می‌توانند فرو بریزند، شناور شوند یا جدا بمانند.”

برخلاف تلاش‌های قبلی برای مدل‌سازی خودکار لگو، گزارش شده است که LegoGPT دستورالعمل‌های گام به گام برای ساختن سازه‌های لگویی که از هم نمی‌پاشند، تولید می‌کند. می‌توانید نسخه های آزمایشی این سیستم را در عمل در وب‌سایت پروژه مشاهده کنید.

چگونگی کارکرد  LegoGPT

تیم کارنگی ملون برای ساخت  LegoGPT، فناوری پشت مدل‌های زبان بزرگ  (LLM)، مشابه نوعی که ChatGPT را اجرا می‌کند، برای “پیش‌بینی آجر بعدی” به جای “پیش‌بینی کلمه بعدی” تغییر کاربری داد. برای این کار، این تیم LLaMA-3.2-1B-Instruct، یک مدل زبانی پیروی از دستورالعمل از متا را تنظیم دقیق کرد.

سپس این تیم مدل پیش‌بینی‌کننده‌ی آجر را با یک ابزار نرم‌افزاری جداگانه تقویت کرد که می‌تواند پایداری فیزیکی را با استفاده از مدل‌های ریاضی شبیه‌سازی‌کننده‌ی گرانش و نیروهای ساختاری تأیید کند.

برای آموزش این مدل، این تیم یک مجموعه داده‌ی جدید به نام “StableText2Lego” را جمع‌آوری کرد که شامل بیش از 47000 ساختار لگوی پایدار همراه با شرح‌های توصیفی تولید شده توسط یک مدل هوش مصنوعی جداگانه، GPT-4o  بود. هر ساختار تحت تجزیه و تحلیل فیزیک قرار گرفت تا اطمینان حاصل شود که می‌تواند در دنیای واقعی ساخته شود.

LegoGPT  با تولید یک توالی از آجرهای لگوی دقیقاً قرار داده شده کار می‌کند. برای هر آجر جدید در این توالی، سیستم اطمینان حاصل می‌کند که با آجرهای موجود برخورد نمی‌کند و در فضای ساخت قرار می‌گیرد. پس از تکمیل یک طرح، از مدل‌های ریاضی ذکر شده برای تأیید اینکه مدل می‌تواند بدون فروپاشی به صورت عمودی بایستد، استفاده می‌کند.

اگر قطعات در دنیای واقعی فرو بریزند، سیستم اولین آجر ناپایدار را شناسایی کرده و به عقب برمی‌گردد، آن و تمام آجرهای بعدی را حذف می‌کند و قبل از تلاش برای یک رویکرد متفاوت، این کار را انجام می‌دهد. این روش “بازگشت آگاه از فیزیک” برای رویکرد تیم ضروری بود. بدون آن، تنها 24 درصد از طرح‌ها پابرجا می‌ماندند، در حالی که با سیستم کامل این میزان 98.8 درصد بود.

محققان همچنین با افزودن گزینه‌های بافت و رنگ، قابلیت‌های سیستم را گسترش دادند. به عنوان مثال، با استفاده از یک دستور ظاهری مانند “گیتار الکتریک به رنگ بنفش متالیک”، LegoGPT  می‌تواند یک مدل گیتار با آجرهایی به رنگ بنفش تولید کند.

آزمایش با ربات‌ها و انسان‌ها

محققان برای اثبات عملکرد طرح‌های خود در دنیای واقعی، ربات‌هایی را برای مونتاژ مدل‌های لگوی ایجاد شده توسط هوش مصنوعی به کار گرفتند. آن‌ها از یک سیستم بازوی دو رباتیک با حسگرهای نیرو برای برداشتن و قرار دادن آجرها طبق دستورالعمل‌های تولید شده توسط هوش مصنوعی استفاده کردند.

آزمایش‌کنندگان انسانی نیز برخی از طرح‌ها را با دست ساختند و نشان دادند که هوش مصنوعی مدل‌های واقعاً قابل ساخت ایجاد می‌کند. این تیم در مقاله‌ی خود خاطرنشان کرد: “آزمایش‌های ما نشان می‌دهد که LegoGPT طرح‌های لگوی پایدار، متنوع و از نظر زیبایی‌شناختی دلپذیر تولید می‌کند که به دقت با دستورات متنی ورودی مطابقت دارند.”

هنگامی که LegoGPT در برابر سایر سیستم‌های هوش مصنوعی برای ایجاد سه‌بعدی آزمایش شد، از طریق تمرکز خود بر یکپارچگی ساختاری متمایز شد. این تیم در برابر چندین جایگزین، از جمله LLaMA-Mesh و سایر مدل‌های تولید سه‌بعدی، آزمایش کرد و دریافت که رویکرد آن بالاترین درصد ساختارهای پایدار را تولید می‌کند.

با این حال، محدودیت‌هایی نیز وجود دارد. نسخه‌ی فعلی LegoGPT فقط در یک فضای ساخت 20x20x20 کار می‌کند و از تنها هشت نوع آجر استاندارد استفاده می‌کند. این تیم اذعان کرد: “روش ما در حال حاضر از مجموعه‌ای ثابت از آجرهای لگوی رایج استفاده می‌کند. در کارهای آینده، ما قصد داریم کتابخانه‌ی آجر را گسترش دهیم تا طیف وسیع‌تری از ابعاد و انواع آجر، مانند شیب‌ها و کاشی‌ها را شامل شود.”

محققان همچنین امیدوارند که مجموعه داده‌های آموزشی خود را برای گنجاندن اشیاء بیشتری نسبت به 21 دسته‌ی موجود در حال حاضر، گسترش دهند. در همین حال، دیگران می‌توانند به معنای واقعی کلمه بر اساس کار آن‌ها بسازند. محققان مجموعه داده‌ها، کدها و مدل‌های خود را در وب‌سایت پروژه و GitHub منتشر کردند.

شما میتوانید از طریق لینک های زیر به این هوش مصنوعی لگو ساز مراجعه کنید:

وبسایت پروژه: https://avalovelace1.github.io/LegoGPT

منبع: https://arstechnica.com

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *