مدل سازی لگو های قابل ساخت توسط هوش مصنوعی LegoGPT
سیستم “LegoGPT” دانشگاه کارنگی ملون از بررسیهای فیزیکی استفاده میکند تا اطمینان حاصل کند که مدلها فرو نمیریزند.
محققان دانشگاه کارنگی ملون از LegoGPT، یک مدل هوش مصنوعی که ساختارهای لگوی پایدار فیزیکی را از دستورات متنی ایجاد میکند، رونمایی کردند. سیستم جدید نه تنها مدلهای لگویی را طراحی میکند که با توضیحات متنی (دستورات) مطابقت دارند، بلکه اطمینان میدهد که میتوان آنها را آجر به آجر در دنیای واقعی، چه با دست و چه با کمک ربات، ساخت.
محققان در مقالهی خود که در arXiv منتشر شده است، نوشتند: “برای دستیابی به این هدف، ما یک مجموعه دادهی بزرگمقیاس و پایدار فیزیکی از طرحهای لگو، همراه با شرحهای مرتبط آنها، ایجاد کردیم و یک مدل زبان بزرگ خودبازگشتی را آموزش دادیم تا آجر بعدی را از طریق پیشبینی توکن بعدی پیشبینی کند.”
این مدل آموزشدیده، طرحهای لگویی را تولید میکند که با دستورات متنی مانند “یک کشتی ساده و کشیده” یا “یک خودروی به سبک کلاسیک با جلوپنجرهی برجسته” مطابقت دارند. طرحهای حاصل ساده هستند و تنها از چند نوع آجر برای ایجاد اشکال ابتدایی استفاده میکنند، اما آنها میایستند. یکی از کارکنان آرس تکنیکا صبح امروز پس از دیدن این تحقیق به شوخی گفت: “این هوش مصنوعی، لگو را مثل سال 1974 میسازد.”
در مقالهای با عنوان “تولید طرحهای لگوی پایدار و قابل ساخت از متن”، تیم تحقیقاتی به رهبری آوا پان توضیح داد که بسیاری از مدلهای تولید سهبعدی موجود بر ساخت اشیاء متنوع با هندسهی دقیق تمرکز دارند، اما این طرحهای دیجیتالی اغلب نمیتوانند به صورت فیزیکی ساخته شوند. آنها نوشتند: “بدون پشتیبانی مناسب، قطعات طرح میتوانند فرو بریزند، شناور شوند یا جدا بمانند.”
برخلاف تلاشهای قبلی برای مدلسازی خودکار لگو، گزارش شده است که LegoGPT دستورالعملهای گام به گام برای ساختن سازههای لگویی که از هم نمیپاشند، تولید میکند. میتوانید نسخه های آزمایشی این سیستم را در عمل در وبسایت پروژه مشاهده کنید.
چگونگی کارکرد LegoGPT
تیم کارنگی ملون برای ساخت LegoGPT، فناوری پشت مدلهای زبان بزرگ (LLM)، مشابه نوعی که ChatGPT را اجرا میکند، برای “پیشبینی آجر بعدی” به جای “پیشبینی کلمه بعدی” تغییر کاربری داد. برای این کار، این تیم LLaMA-3.2-1B-Instruct، یک مدل زبانی پیروی از دستورالعمل از متا را تنظیم دقیق کرد.
سپس این تیم مدل پیشبینیکنندهی آجر را با یک ابزار نرمافزاری جداگانه تقویت کرد که میتواند پایداری فیزیکی را با استفاده از مدلهای ریاضی شبیهسازیکنندهی گرانش و نیروهای ساختاری تأیید کند.
برای آموزش این مدل، این تیم یک مجموعه دادهی جدید به نام “StableText2Lego” را جمعآوری کرد که شامل بیش از 47000 ساختار لگوی پایدار همراه با شرحهای توصیفی تولید شده توسط یک مدل هوش مصنوعی جداگانه، GPT-4o بود. هر ساختار تحت تجزیه و تحلیل فیزیک قرار گرفت تا اطمینان حاصل شود که میتواند در دنیای واقعی ساخته شود.
LegoGPT با تولید یک توالی از آجرهای لگوی دقیقاً قرار داده شده کار میکند. برای هر آجر جدید در این توالی، سیستم اطمینان حاصل میکند که با آجرهای موجود برخورد نمیکند و در فضای ساخت قرار میگیرد. پس از تکمیل یک طرح، از مدلهای ریاضی ذکر شده برای تأیید اینکه مدل میتواند بدون فروپاشی به صورت عمودی بایستد، استفاده میکند.
اگر قطعات در دنیای واقعی فرو بریزند، سیستم اولین آجر ناپایدار را شناسایی کرده و به عقب برمیگردد، آن و تمام آجرهای بعدی را حذف میکند و قبل از تلاش برای یک رویکرد متفاوت، این کار را انجام میدهد. این روش “بازگشت آگاه از فیزیک” برای رویکرد تیم ضروری بود. بدون آن، تنها 24 درصد از طرحها پابرجا میماندند، در حالی که با سیستم کامل این میزان 98.8 درصد بود.
محققان همچنین با افزودن گزینههای بافت و رنگ، قابلیتهای سیستم را گسترش دادند. به عنوان مثال، با استفاده از یک دستور ظاهری مانند “گیتار الکتریک به رنگ بنفش متالیک”، LegoGPT میتواند یک مدل گیتار با آجرهایی به رنگ بنفش تولید کند.
آزمایش با رباتها و انسانها
محققان برای اثبات عملکرد طرحهای خود در دنیای واقعی، رباتهایی را برای مونتاژ مدلهای لگوی ایجاد شده توسط هوش مصنوعی به کار گرفتند. آنها از یک سیستم بازوی دو رباتیک با حسگرهای نیرو برای برداشتن و قرار دادن آجرها طبق دستورالعملهای تولید شده توسط هوش مصنوعی استفاده کردند.
آزمایشکنندگان انسانی نیز برخی از طرحها را با دست ساختند و نشان دادند که هوش مصنوعی مدلهای واقعاً قابل ساخت ایجاد میکند. این تیم در مقالهی خود خاطرنشان کرد: “آزمایشهای ما نشان میدهد که LegoGPT طرحهای لگوی پایدار، متنوع و از نظر زیباییشناختی دلپذیر تولید میکند که به دقت با دستورات متنی ورودی مطابقت دارند.”
هنگامی که LegoGPT در برابر سایر سیستمهای هوش مصنوعی برای ایجاد سهبعدی آزمایش شد، از طریق تمرکز خود بر یکپارچگی ساختاری متمایز شد. این تیم در برابر چندین جایگزین، از جمله LLaMA-Mesh و سایر مدلهای تولید سهبعدی، آزمایش کرد و دریافت که رویکرد آن بالاترین درصد ساختارهای پایدار را تولید میکند.
با این حال، محدودیتهایی نیز وجود دارد. نسخهی فعلی LegoGPT فقط در یک فضای ساخت 20x20x20 کار میکند و از تنها هشت نوع آجر استاندارد استفاده میکند. این تیم اذعان کرد: “روش ما در حال حاضر از مجموعهای ثابت از آجرهای لگوی رایج استفاده میکند. در کارهای آینده، ما قصد داریم کتابخانهی آجر را گسترش دهیم تا طیف وسیعتری از ابعاد و انواع آجر، مانند شیبها و کاشیها را شامل شود.”
محققان همچنین امیدوارند که مجموعه دادههای آموزشی خود را برای گنجاندن اشیاء بیشتری نسبت به 21 دستهی موجود در حال حاضر، گسترش دهند. در همین حال، دیگران میتوانند به معنای واقعی کلمه بر اساس کار آنها بسازند. محققان مجموعه دادهها، کدها و مدلهای خود را در وبسایت پروژه و GitHub منتشر کردند.
شما میتوانید از طریق لینک های زیر به این هوش مصنوعی لگو ساز مراجعه کنید:
وبسایت پروژه: https://avalovelace1.github.io/LegoGPT
منبع: https://arstechnica.com