یادگیری خود سنجی از قطعات شیء برای تقسیم معنایی

ساخت وبلاگ

پیشرفت در یادگیری خودآوردها روشهای یادگیری تصویر قوی را به ارمغان آورده است. با این حال ، تاکنون بیشتر روی یادگیری سطح تصویر متمرکز شده است. به نوبه خود ، وظایفی مانند تقسیم بندی تصویر بدون نظارت از این روند بهره مند نشده است زیرا آنها به بازنمایی های فضایی متنوع نیاز دارند. با این حال ، یادگیری بازنمایی های متراکم چالش برانگیز است ، زیرا در زمینه بدون نظارت مشخص نیست که چگونه می توان مدل را برای یادگیری بازنمایی هایی که مطابق با دسته های مختلف شیء است ، راهنمایی کند. در این مقاله ، ما استدلال می كنیم كه یادگیری خودكار از قطعات شیء راه حلی برای این مسئله است. قطعات شیء قابل تعمیم هستند: آنها از یک تعریف شیء مستقل هستند ، اما می توانند برای تشکیل اشیاء a-posterieti گروه بندی شوند. برای این منظور ، ما از توانایی ترانسفورماتور بینایی که اخیراً پیشنهاد شده است ، از حضور در اشیاء استفاده می کنیم و آن را با یک کار خوشه بندی مکانی متراکم برای تنظیم دقیق نشانه های مکانی ترکیب می کنیم. روش ما در سه معیار تقسیم بندی معنایی 3 ٪ -17 ٪ پیشی می گیرد ، نشان می دهد که بازنمایی های ما تحت تعاریف مختلف شیء متنوع هستند. سرانجام ، ما این را به تقسیم بندی کاملاً تحت نظارت-که کاملاً از استفاده از اطلاعات برچسب حتی در زمان آزمون خودداری می کند-گسترش می دهیم و نشان می دهیم که یک روش ساده برای ادغام خودکار قطعات شیء کشف شده بر اساس تشخیص جامعه ، سود قابل توجهی دارد.† † کد: https://github.com/mkuuwaujinga/leopart

= 0. 05 میلی متر زیر RULESEP = 0. 2mm

شکل 1: VITS و RESNET ها تحت استخراج پیش زمینه و تقسیم معنایی مقایسه می شوند. ما از فاصله جاکارد به عنوان اندازه گیری برای استخراج پیش زمینه استفاده می کنیم. روش ما ، Leopart ، با شروع از ابتدای کار DINO ، شکاف عملکرد بین VIT های خود تحت نظارت و همتایان تحت نظارت آنها و همچنین Resnets را می بندد. Leopart (CBFE+CD) بیشتر قابلیت های استخراج شیء VIT را بهبود می بخشد و پیشرفته جدید را برای تقسیم معنایی کاملاً بدون نظارت تعیین می کند.

1. معرفی

تعریف آنچه که یک شی را به یک شی تبدیل می کند سخت است. در فلسفه ، پیرس یک شی را به عنوان هر چیزی که می توانیم فکر کنیم و در مورد [peirceobject] تعریف کنیم ، تعریف می کند. در چشم انداز رایانه ، تعاریف شیء برای تقسیم معنایی بیشتر عمل گرایانه است و دارای مفاهیم مختلفی از عینیت و همچنین سطوح مختلف دانه بندی است. به عنوان مثال ، معیار کوکو بین مواد (اشیاء بدون شکل واضح) و چیزهایی (اشیاء با شکل "تعریف شده") [Caesar2018Coco ، Lin2014microsoft] متمایز می شود و دارای دسته های درشت و ریز است. برخی دیگر ، مانند مناظر شهری [Cordts2016CityScapes] ، تقسیم بندی را انتخاب می کنند که برای یک برنامه خاص مانند رانندگی خودمختار آموزنده ترین است و بنابراین شامل آسمان و جاده به عنوان کلاس های شی است.

این متنوع بودن تعاریف شیء برای تقسیم معنایی خود تحت نظارت یا بدون نظارت به عنوان حاشیه نویسی انسانی که تعاریف شی را در اختیار دارند ، چالش برانگیز است. با این حال ، توانایی یادگیری بازنمایی های متراکم خودکشی مطلوب است زیرا این امر باعث می شود مقیاس بندی فراتر از تصاویر شیء محور باشد و یادگیری مؤثر را در میلیاردها تصویر عمومی تر فراهم کند. علاوه بر این ، تقسیم بندی بدون نظارت می تواند به عنوان یک نقطه شروع برای برچسب زدن به داده های کارآمد بسیار مفید باشد ، زیرا حاشیه نویسی تقسیم بندی حتی از برچسب زدن تصویر گران تر است [LIN2014Microsoft]. برای مقابله با عدم وجود یک تعریف شیء اصولی در طول آموزش ، بسیاری از روش ها به تعریف مقدمات شیء مانند شوری و ردیاب کانتور متوسل می شوند تا مفهوم شیء را به کارهای بهانه خود القا کنند [Cho2015unsupervised ، hwang2019segsort ، Zhang2020spes ، vangansbeke202020onsunsunsupervise ، henaff2021aff ، henaff2021aff. روشهای نیمه تحت نظارت و بالقوه قابل تعمیم نیست. در این مقاله ، ما در عوض در حوزه کاملاً تحت نظارت قرار می گیریم و یک جایگزین جدید و در عین حال ساده برای آموزش متراکم را کشف می کنیم. ما قسمت S (Leopart) را از طریق یک کار بهانه ای بهانه ای وصله ای متراکم و پچ وصله ای متراکم می کنیم. یادگیری قسمت شیء نوید می دهد یک فرمول اصولی برای یادگیری بازنمایی متراکم خودآورده به عنوان قطعات شیء می تواند برای تشکیل اشیاء همانطور که در هر معیار تعریف شده است ، پس از پیشگویی عمومی تشکیل شود.

در این مقاله ، ما با استفاده از یک ترانسفورماتور بینایی (VIT) با از دست دادن جدید خود را بررسی می کنیم و استحکام منحصر به فرد آن را برای تقسیم بندی خودکشی کاوش می کنیم. در حالی که ترانسفورماتورهای بینایی معماری های پتانسیل بالایی را نشان داده اند و با داده ها به میلیارد دلار خوب مقیاس می دهند ، اما بیشتر نشان داده شده است که برای کارهای سطح تصویر کار می کنند [Dosovitskiy2021Image ، chen2021 moremivical ، caron2021emerging] یا وظایف متراکم [wang2021pyramid ، wu2021cv ، liu2021cvt ، liu2021cvt ، liu2021cvt ، liu2021cvt ، liu2021cvt ، liu2021Cvt ، liu2021cvt ، liu2021Cvt ، liu2021cvt ، liu2021cv21روشی نظارت شدهکار ما با هدف بستن این شکاف با یادگیری مدلهای VIT متراکم است. ما ویژگی های اخیراً کشف شده از VIT های خود را برای بومی سازی اشیاء [Caron2021emerging] با از دست دادن متراکم برای آموزش نشانه های مکانی برای تقسیم بندی بدون نظارت ترکیب می کنیم.

ما روش خود را از دو زاویه مختلف تأیید می کنیم: اول ، ما یک مطالعه قابلیت انتقال را انجام می دهیم و نشان می دهیم که بازنمایی های ما در کارهای تقسیم بندی معنایی پایین دست عملکرد خوبی دارند. دوم ، ما با تنظیمات کاملاً بدون نظارتی که در [Vangansbeke2020unsuprevised] ارائه شده است بر اساس خوشه بندی مستقیم پیکسل یا پچ ، مقابله می کنیم. برای آن ، دو ویژگی مدل مهم هستند: استخراج پیش زمینه بدون نظارت و یک فضای تعبیه شده با ساختار معنایی ، شکل 1 را ببینید. در کمال تعجب ما ، حتی اگر VIT های خود تحت نظارت در استخراج اشیاء برتری داشته باشند ، آنها یک فضای تعبیه کننده مکانی را یاد نمی گیرند که برای دسته های مختلف شیء تبعیض آمیز باشد. از طرف دیگر ، Vits آموزش دیده تحت نظارت به عملکرد تقسیم بندی معنایی بهتر می رسد ، اما سرهای توجه در بومی سازی اشیاء ضعیف عمل می کنند. در مقابل ، روش ما از Vits و Resnets خودكار شده در تقسیم معنایی كاملاً بدون نظارت و همچنین در یادگیری بازنمایی های متراكم قابل انتقال بهتر عمل می كند.

بنابراین ، مشارکتهای ما به شرح زیر است:

ما یک کار بهانه خوشه بندی متراکم را برای یادگیری نشانه های فضایی غنی از نظر معنایی پیشنهاد می کنیم ، و شکاف بین VIT های تحت نظارت و VIT های خود تحت نظارت را می بندیم.

ما نشان می دهیم که وظیفه بهانه ما بازنمایی های قابل انتقال را نشان می دهد که از پیشرفته در Pascal VOC ، Coco-Thing و Coco-Stuff تقسیم بندی شده در همان زمان با 17 ٪ -3 ٪ پیشی می گیرد.

We develop a novel cluster-based foreground extraction and overclustering technique based on community detection to tackle fully unsupervised semantic segmentation and surpass the state-of-the-art by >3%.

2 کار مرتبط

کار ما الهام بخش از پیشگویی خود در سطح تصویر استاندارد در حالی است که این کار را به حوزه یادگیری بازنمایی متراکم با استفاده از ترانسفورماتورهای بینایی گسترش می دهد.

یادگیری خود تحت نظارت سطح تصویر.

یادگیری خود سنجی با هدف یادگیری بازنمایی های قدرتمند با جایگزینی حاشیه نویسی انسانی با کارهای پروکسی حاصل از داده ها به تنهایی. روشهای فعلی را می توان تقریباً به اهداف سطح و سطح گروهی طبقه بندی کرد. خسارات متضاد [Hadsell2006Dimensionalityrb].

از طرف دیگر ، اهداف سطح گروهی صریحاً به یادگیری مفاهیم مشترک بین تصاویر اجازه می دهد تا با استفاده از ضررهای خوشه بندی [Caron2018Deep ، Asano2020 ، Van2020Scan ، Caron2020onsupervised].[Caron2018Deep] برای تهیه برچسب های شبه برای آموزش یک شبکه عصبی ، خوشه بندی K-Means را در فضای ویژگی پیشنهاد می کند.[ASANO2020 خود] مشکل پیدا کردن برچسب های شبه را به عنوان یک مشکل حمل و نقل بهینه برای اتحاد خوشه بندی و اهداف یادگیری بازنمایی ایجاد می کند. این فرمولاسیون با یک تنظیم آنلاین در SWAV [Caron2020unsuprevised] به همراه یک استراتژی جدید تقویت چند محصول ، یک روش کشت تصادفی تصادفی که بین محصولات جهانی و محلی یک تصویر متمایز می شود ، اقتباس شده است. روش IIC [JI2018InVariant] ، همچنین خوشه بندی را انجام می دهد ، اما با استفاده از یک هدف اطلاعات متقابل. در حالی که می توان از آن نیز به صورت متراکم استفاده کرد ، مشخص شده است که روی ویژگی های سطح پایین مخصوص هر مجموعه داده [Vangansbeke2020unsupervised] تمرکز دارد. یکی دیگر از آثار اخیر با پیش بینی اهداف از یک شبکه معلمان به آرامی در حال حرکت [Grill2020bootsstrap ، Caron2021emerging] ، کاملاً از خوشه بندی سطح گروه یا تبعیض مبتنی بر نمونه خودداری می کند.

کار ما این مجموعه معلم و دانش آموز را تطبیق می دهد و مزایای آن را فراتر از کارهای سطح تصویر نشان می دهد. برای این منظور ، ما بر روی کار بهانه خوشه بندی از [caron2020unsupervised] ساخته شده و آن را به گونه ای اصلاح می کنیم که می توان از آن در سطح پچ تصویر با مجموعه های معلم و دانش آموز استفاده کرد. ما همچنین از استراتژی تقویت چند محصول استفاده می کنیم و تفسیری را از منظر کارهای پیش بینی متراکم ارائه می دهیم.

یادگیری متراکم خودکشی.

بر اساس این مشاهدات که یادگیری در سطح تصویر به معنای بازنمایی های متراکم بیانی نیست [HE2018RETHINKING ، Purushwalkam20DemyStifying] ، یادگیری متراکم اختصاصی خودپرداز خود ، توجه زیادی را به خود جلب کرده است.، Liu2021SelfEMD ، HENAFF2021EFFIFIC ، LI2021DENSE ، GAO2021LARGESCALE ، CHOUDHURY21UNSUPRVISED ، Simeoni2021Localizing]. DENSECL با ایجاد مکاتبات متراکم از دیدگاههای متراکم ، هدف متضاد مورد استفاده در MOCO [HE2019MOMENTUM] را برای کار بر روی ویژگی های مکانی تغییر می دهد و در حال حاضر در یادگیری انتقال معنایی در PVOC [Li2021Dense] پیشرفته است. روشهای دیگر به تعریف یک شیء تحت نظارت قبلی مانند پیشنهادهای منطقه [CHO2015UNSUPRVISED] ، ردیاب های کانتور [Hwang2019Segsort ، Zhang_2020] ، Salience [Vangansbeke2020onsuprevised] یا ماسک های شی [Henaff202 1-uff -] متوسل می شوند. به عنوان مثال ، پیشرفته فعلی برای تقسیم معنایی بدون نظارت ، MaskContrast [Vangansbeke2020unsupervised] ، از یک برآوردگر شوری پیش ساخته برای پیکسل های مثبت و منفی برای یادگیری متضاد استفاده می کند.

همزمان با کار ما ، [Li2021Dense] یک مرحله خوشه بندی داخل تصویر از تعبیه های پیکسل را قبل از اعمال ضرر متضاد در گروه های پیکسل مشخص شده به تصاویر تقسیم می کند. با این حال ، از آنجا که آنها به ترکیب اولی با از دست دادن سطح تصویر متکی هستند ، برای تصاویر عمومی تر با اشیاء متعدد که در آن معناشناسی در سطح تصویر و پیکسل مطابقت ندارند ، مناسب نیست. در مقابل ، روش ما از یک هدف خوشه بندی واحد استفاده می کند که برای تنظیم متراکم تعمیم یافته است ، اما این کار بر روی تصاویر شیء محور نیز کار می کند. علاوه بر این ، با استفاده از توانایی طبیعی VIT در جلب توجه خود به اشیاء ، ما نیازی به تولید کننده شوری خارجی مانند [Vangansbeke2020unsupervised] نداریم.

همچنین آثاری وجود دارد که تقسیم بندی قطعات شیء بدون نظارت [Hung2019scops ، Choudhury21unsuprevised] را با هدف صریح برای تعیین قطعات ماسک شیء مورد بررسی قرار داده است. با این حال ، هدف ما متفاوت است زیرا ما از بازنمایی های جزئی به عنوان واسطه برای تقسیم معنایی در تنظیمات کلاسیک و سطح شی استفاده می کنیم.

از نظر سطحی شبیه به کار ما نیز یکی دیگر از کارهای همزمان [Simeoni2021Localizing] است ، که با استفاده از شباهت بین کلیدهای پچ خودحافظی خود به لایه آخر Dino ، به عنوان یک متریک برای ادغام تکه های تصویر به اشیاء ، تشخیص شیء را برطرف می کند. در مقابل ، ما از نشانه های مکانی Dino استفاده می کنیم و پیشنهاد می کنیم که آنها را برای تقسیم معنایی تنظیم کنیم.

3 روش

شکل 2: خط لوله آموزش پلارت. ما از ابتدای دینو شروع می کنیم. ما محصولات مختلف را به شبکه دانش آموز و معلم تغذیه می کنیم تا پیش بینی های خوشه ای در سطح پچ و اهداف بهینه تکالیف خوشه ای را تولید کنیم. این امر به یک مرحله تراز از اهداف و تکالیف خوشه ای نیاز دارد. ما بیشتر با استفاده از نقشه توجه VIT ، خوشه بندی را روی تکه های پیش زمینه متمرکز می کنیم.

هدف ما یادگیری یک فضای تعبیه شده است که تکه های تصویر را شامل می شود که حاوی همان قسمت از یک شی است. این با این فرضیه انگیزه می یابد که بازنمایی قسمت شیء عمومی تر از بازنمایی شیء است ، زیرا قطعات می توانند به روش های مختلفی به اشیاء مختلف نوترکیب شوند. به عنوان نمونه ، نمایندگی چرخ را می توان با نمایندگی خودرو ترکیب کرد بلکه یک نمایندگی اتوبوس نیز هست. بنابراین ، بازنمودهای قسمت شیء باید بهتر از طریق مجموعه داده ها منتقل شوند. برای این کار ، ما هدف ما طراحی یک کار بهانه ای است که امکان یادگیری دسته داخل تصویر را در یک سطح تصویر فراهم می کند. بنابراین ، یک کار بهانه خوشه بندی یک انتخاب طبیعی است. همانطور که در شکل 2 نشان داده شده است ، ما تکالیف خوشه ای بهینه سطح پچ را از یک شبکه معلم بازیابی می کنیم و آنها را از شبکه دانشجویی پیش بینی می کنیم. انتخاب یک کار بهانه خوشه بندی بیشتر توسط شواهد تجربی پشتیبانی می شود که نشان می دهد بهانه خوشه بندی بهانه متضاد برای کارهای پیش بینی متراکم است [GAO2021LARGESCALE ، LI2021DENSE]. ما به جای مدل های پیش بینی از ابتدا که به بودجه های GPU قابل توجهی نیاز دارند ، ما از ضرر خود برای شبکه های عصبی با تنظیم دقیق استفاده می کنیم. علاوه بر این ، این مسائل مربوط به پایداری خوشه و خوشه هایی را که ویژگی های تصویر سطح پایین را ضبط می کنند ، هنگام استفاده از سطح پچ ، همانطور که در [VAN2020SCAN] گزارش شده است ، دور می کند.

3. 1 از دست دادن تنظیم دقیق برای نشانه های مکانی

رمزگذار تصویر.

با توجه به یک تصویر x ∈ R 3 × H × W ، تصویر را به N = ⌊ H P ⌋ ⋅ ⌊ W P ⌋ PATCHES جداگانه x i ، i ∈ 1 ،… ، n از اندازه P × P هر. رمزگذار بینایی که ما استفاده می کنیم یک ویتام [Dosovitskiy2021Image] است که نقشه های تصویر x i را به یک بردار از نشانه های مکانی n f (x) = [f (x 1) ،… f (x n) نقشه می کند.

ضرر تنظیم مجدد پلارت.

برای آموزش نشانه های مکانی VIT ، ابتدا به طور تصادفی تصویر V-TT را به V G Views Global و نمای محلی v l می پردازیم. هنگام نمونه برداری از نماها ، تقاطع جفت آنها را در قالب جعبه محدود محاسبه می کنیم و آن را در یک ماتریس b ذخیره می کنیم. ما نسخه تبدیل شده تصویر را به عنوان x t j ، j sent بیان می کنیم< 1 , … , V >بشرسپس ، ما نشانه های مکانی را از طریق یک سر طرح ریزی MLP G با یک تنگنا L2-normalization به دست می آوریم تا از ویژگی های مکانی برای هر محصول استفاده کنیم: G (f (x t j)) = z t j ∈ R d × n. برای ایجاد اهداف پیش بینی ، ما در مرحله بعد یک تکلیف خوشه نرم بهینه q t j از همه وکتور ویژگی های فضایی z t j به بردارهای نمونه اولیه K [c 1 ،… ، c k] = c ∈ R d × k را می یابیم. برای این کار ، ما هدف بهینه سازی آنلاین SWAV [caron2020unsupervised] را دنبال می کنیم که در کل دسته تصویر b کار می کند. q به گونه ای بهینه شده است که شباهت بین تمام بردارهای ویژگی در دسته و نمونه های اولیه به حداکثر می رسد ، در حالی که در عین حال به سمت اختصاص جرم احتمال مساوی به هر بردار نمونه اولیه تنظیم می شود. این می تواند به یک مشکل حمل و نقل بهینه تبدیل شود و با الگوریتم Sinkho-Knopp [Asano2020 خود ، CUTURI2013SINKHORN] به طور مؤثر حل می شود. به جای بهینه سازی بیش از |ب |بردارهای ویژگی ، ما در عوض بیش از n ⋅ |ب |بردارهای ویژگی فضایی به عنوان نشانه های فضایی برای هر تصویر داریم. از آنجا که دسته بندی های ما کوچک است ، ما از یک صف کوچک استفاده می کنیم که 8192 گذشته را حفظ می کند ، همانطور که در SWAV انجام می شود.

با تکلیف بهینه خوشه ای همه نشانه های مکانی همه محصولات زراعی q t k ∈ R n × k ، ما یک کار پیش بینی مبادله شده را تدوین می کنیم:

 l (x t 1 ،. ، x t v) = v g ∑ j = 0 v ∑ i = 0 1 k ≠ j l (x t i ، x t j) (1)

در اینجا ، L آنتروپی متقاطع 2D بین پیش بینی های تکالیف خوشه ای نرم و تراز شده و تکالیف خوشه ای بهینه تراز شده است:

 l (x t i ، x t j) = h [(s τ (α b j ، i (g (φ (x t i)) t c) ، α b i j (q t j)] ، (2)

جایی که H آنتروپی متقاطع است و S τ یک Softmax که توسط درجه حرارت τ اندازه گیری می شود. ما از L استفاده می کنیم تا به طور مشترک نمونه های اولیه C و همچنین شبکه های عصبی F و G را به حداقل برسانیم. C بعد از هر مرحله شیب ، L2 طبیعی است به گونه ای که z t c به طور مستقیم شباهت کوشین را بین ویژگی های مکانی و نمونه های اولیه محاسبه می کند.

از آنجا که محصولات جهانی اکثریت یک تصویر را ضبط می کنند ، ما فقط از این موارد برای محاسبه Q T J استفاده می کنیم ، زیرا نشانه های مکانی می توانند در اطلاعات صحنه جهانی شرکت کنند به گونه ای که کیفیت هدف پیش بینی کلی بهبود می یابد. علاوه بر این ، از آنجا که محصولات محلی فقط بخش هایی از تصاویر را در بر می گیرند و بنابراین بخش هایی از اشیاء نیز می پردازند ، با استفاده از این موارد پیش بینی های تکالیف خوشه ای را تولید می کند که به طور موثری استدلال های شیء را به هدف را قادر می سازد ، یک توانایی مهم برای درک صحنه است.

هم ترازی.

در معادله 2 ما اپراتور تراز α B I J (⋅) را معرفی می کنیم. این امر ضروری است زیرا x t j و x t i قسمت های مختلفی از تصویر ورودی را پوشش می دهد و بنابراین q t j و پیش بینی تکلیف خوشه z t t i c با مناطق مختلف تصویر مطابقت دارد. برای مقابله با این ، α (⋅) ابعاد مکانی ⌊ H P ⌋ × ⌊ W P ⌋ را بازیابی می کند و به ترتیب تانسور را با استفاده از جعبه های محدودیت تقاطع محصول B J I و B I J تراز می کند. در آزمایشات ما از ROI ALIGN [HE2017MASK] استفاده می کنیم که ویژگی هایی را با اندازه خروجی ثابت و سازگار تولید می کند.

خوشه بندی متمرکز پیش زمینه.

برای تمرکز خوشه بندی بر روی نشانه های پیش زمینه ، ما بیشتر از نقشه های توجه CLS VIT استفاده می کنیم. برای ایجاد یک ماسک خوشه بندی پیش زمینه که می تواند در طول آموزش استفاده شود ، ابتدا توجه به یک نقشه را به یک نقشه می دهیم و یک فیلتر گاوسی را برای هموار سازی اعمال می کنیم. سپس ما با آستانه کردن نقشه ، ماسک باینری A B را بدست می آوریم تا 60 ٪ از توده را زیر [Caron2021emerging] نگه داریم. ما از α B J I استفاده می کنیم تا توجه جهانی محصول را به تقاطع با محصول j تراز کنیم. ماسک حاصل از آن به عنوان وزن 0-1 به از دست دادن آنتروپی متقاطع 2D ، L ⊙ A b استفاده می شود. توجه داشته باشید که ما نقشه های توجه و نشانه های مکانی را با همان پاس رو به جلو استخراج می کنیم ، بنابراین بر سرعت تمرین تأثیر نمی گذارد.

3. 2 تقسیم معنایی کاملاً بدون نظارت

در این بخش ما روش خود را توضیح می دهیم که ما را قادر می سازد تقسیم معنایی کاملاً بدون نظارت را انجام دهیم. قطعات تشکیل دهنده آن به طور مستقیم در توکن مکانی آموخته شده فضای تعبیه شده و از خوشه بندی ساده K به کار می رود.

3. 2. 1 استخراج پیش زمینه مبتنی بر خوشه (CBFE)

براساس این فرضیه که خوشه های موجود در فضای تعبیه شده ما با قطعات شیء مطابقت دارند ، ما باید با اختصاص هر شناسه خوشه ای به شیء پیش زمینه (F G) یا پس زمینه (B G) ، اشیاء پیش زمینه را استخراج کنیم: θ:< 1 , … , K >→ < f g , b g >بشربنابراین ، در زمان ارزیابی ، ما θ را بدون نظارت ، با استفاده از نقشه های توجه ادغام شده VIT ، A B به عنوان یک نکته پیش زمینه پر سر و صدا می سازیم. شبیه به نحوه پردازش نقشه های توجه برای تمرکز بهانه خوشه بندی خود در پیش زمینه ، ما به طور متوسط سر توجه می کنیم ، فیلتر گاوسی را با اندازه هسته 7x7 اعمال می کنیم و 60 ٪ از توده را برای به دست آوردن ماسک باینری نگه می داریم. با استفاده از داده های قطار ، ما همه خوشه ها را با دقت پیکسل با یک B رتبه بندی می کنیم و یک آستانه خوب C برای طبقه بندی یک خوشه به عنوان پیش زمینه پیدا می کنیم. این به ما θ می دهد که ما برای خوشه بندی سطح پچ اعمال می کنیم تا یک ماسک پیش زمینه را بدست آوریم.

3. 2. 2 اورکستراسیون با تشخیص جامعه (CD)

همانطور که از جدول 1 خواهیم دید ، نتایج تقسیم بندی با دانه های خوشه بندی بالاتر به میزان قابل توجهی بهبود می یابد. با این حال ، این امر عمدتاً به این دلیل است که اورکستراسیون اطلاعات برچسب را به خوشه های گروهی به اشیاء حقیقت زمین و در حد تهیه یک خوشه برای هر پیکسل می رساند ، معادل ارائه سیگنال های نظارت کامل است. در اینجا ، ما یک روش اورکستراسیون جدید را پیشنهاد می کنیم که به هیچ وجه نیازی به نظارت اضافی ندارد.

ایده اصلی که ما از آن استفاده می کنیم این است که خوشه ها با قطعات شیء مطابقت دارند و مجموعه ای از قطعات شیء که اغلب در کنار هم قرار می گیرند. بنابراین ، همزمان محلی خوشه ها در یک تصویر باید اشاره ای درباره قطعات تشکیل دهنده یک شی ارائه دهد. استفاده از آمار همزمان برای طبقه بندی اشیاء قبلاً در [Rabinovich2007Objects ، Galleguillos2008Object] پیشنهاد شده است. با این حال ، ما اولین کسی هستیم که با قطعات شیء کار می کنیم و بدون برچسب کار نمی کنیم و از یک روش علوم شبکه جدید برای کشف اشیاء استفاده می کنیم. برای گروه بندی خوشه ها ، ما یک شبکه همدردی غیر مستقیم و وزنی ایجاد می کنیم G = (V ، E ، W) ، با V I ، I ∈< 1 , … , K >مربوط به هر خوشه. ما از یک نوع همزمان بومی سازی شده استفاده می کنیم که 8- همسایگی تا فاصله پیکسل d را در نظر می گیرد. سپس ، ما احتمال وقوع همبستگی شرطی P (V J | V I) را برای خوشه های I و J در تمام تصاویر d محاسبه می کنیم. با احتمال هماهنگی در دست ، ما W (E I ، J) = Min (P (V J | V I) ، P (V J | V I)) را تعریف می کنیم. این تعریف وزن لبه نامتقارن از این واقعیت انگیزه می یابد که قطعات نیازی به پیش بینی ندارند: به عنوان مثال ، یک شیشه جلو اتومبیل ممکن است به طور قابل توجهی با آسمان همراه باشد اما حضور یک آسمان برای شیشه جلو اتومبیل پیش بینی کننده نیست.

برای یافتن جوامع در G ، ما از الگوریتم مشترک Infomap [Rosvall2007Maps] استفاده می کنیم زیرا با نمودارهای وزنی و مقیاس به صورت خطی با |E |بشراین کار با استفاده از یک تعریف اطلاعاتی از اجتماعات شبکه کار می کند: پیاده روی های تصادفی جریان اطلاعات در شبکه ها و ساخت نقشه θ k از گره ها به جوامع M را به حداقل می رساند و طول توضیحات مورد انتظار یک پیاده روی تصادفی را به حداقل می رساند. با نقشه برداری بسیار به یک گسسته θ k: v< 1 , … , M >به دست آمده از InfoMap و محاسبه شده در داده های قطار ، ما خوشه های داده های اعتبار سنجی را به تعداد مورد نظر کلاس های حقیقت زمین ادغام می کنیم و مطابق با مجارستان [Kuhn1955hangarian] انجام می دهیم. توجه داشته باشید که تطبیق مجارستان هیچ اطلاعات برچسب معنی دار را استخراج نمی کند. این صرفاً باعث می شود ارزیابی متریک متریک متغیر متغیر [JI2018INVARIANT] باشد.

4 آزمایش

در این بخش ، نمایش های پچ تصویر را که توسط Leopart آموخته شده است ارزیابی می کنیم. ما ابتدا تصمیمات طراحی روش خود را برای یافتن پیکربندی بهینه ابراز می کنیم. برای ارزیابی اینکه آیا برخی از مجموعه داده ها برای یادگیری قطعات شیء بیشتر از سایر موارد غنی از اطلاعات هستند ، ما همچنین آموزش در مجموعه داده های مختلف را ابراز می کنیم. ما بیشتر عملکرد بازنمودهای متراکم خود را تحت یک مجموعه یادگیری انتقال برای تقسیم معنایی آزمایش می کنیم. علاوه بر این ، ما نشان می دهیم که Leopart همچنین می تواند برای تقسیم بندی کاملاً بدون نظارت استفاده شود که به هیچ وجه برای ارزیابی نیاز به اطلاعات برچسب ندارد.

4. 1 راه اندازی

پروتکل های ارزیابی. برای همه آزمایشات ، ما از پیش بینی استفاده شده در طول آموزش دور می شویم. در عوض ، ما مستقیماً نشانه های مکانی VIT را ارزیابی می کنیم. ما از دو روش اصلی برای ارزیابی استفاده می کنیم: طبقه بندی خطی و اورکستراسیون. برای طبقه بندی خطی (LC) ، ما یک لایه حلقوی 1x1 را در بالای نشانه مکانی منجمد یا ویژگی های لایه 4 قبل از GAP تنظیم می کنیم ، به دنبال آن [Vangansbeke2020onsupervised]. برای اورکستراسیون ، ما K-Means را روی تمام نشانه های مکانی یک مجموعه داده خاص اجرا می کنیم. ما سپس با تطبیق حریص با دقت پیکسل ، کلاسهای خوشه ای را به زمین می اندازیم و تطبیق مجارستان [KUHN1955HANGARAR) را در نقشه های خوشه ای ادغام شده اجرا می کنیم تا به دنبال [JI2018InVariant] ارزیابی متریک متریک ما انجام شود. ما همیشه نتایج اورکستراسیون را به طور متوسط بیش از پنج دانه مختلف گزارش می دهیم. اورکستراسیون مورد توجه ویژه ای است زیرا مستقیماً در فضای تعبیه شده آموخته کار می کند و بنابراین به نظارت کمتری نسبت به آموزش طبقه بندی خطی نیاز دارد. برای کامل بودن ما همچنین نتایج را تنظیم می کنیم که یک شبکه کاملاً عمیق تر (FCN) را به دنبال [Wang2021Dense] تنظیم کنید. به طور کلی ، ما روشهای تنظیم دقیق آثار قبلی را دنبال می کنیم [ZHANG_2020 ، VANGANSBEKE2020ONSUPRVISED ، WANG2021DENSE]. ما نتایج را در میانگین تقاطع بیش از اتحادیه (MIOU) گزارش می کنیم مگر اینکه در غیر این صورت مشخص شود.

آموزش مدل. ما یک ویتام کوچک را با اندازه پچ 16 آموزش می دهیم و از وزنه های Dino [Caron2021emerging] تمرین می کنیم. همه مدل ها با استفاده از دسته های اندازه 32 در 2 GPU برای 50 دوره آموزش داده شدند. جزئیات آموزش بیشتر در Sec ارائه شده است. a. 1.

مجموعه داده هاما مدل خود را در Imagenet-100 آموزش می دهیم ، شامل 100 کلاس Imagenet به طور تصادفی نمونه [Tian2020Contrastive] ، Coco [Lin2014microsoft] و Pascal Voc (PVOC) [Everingham201010PASCAL]. هنگام تنظیم دقیق روی کلوچه و ککو ، ما از 10 ٪ تقسیم مجموعه های تمرینی استفاده می کنیم. نتایج ارزیابی بر روی داده های کامل اعتبار سنجی CoCo برای Coco-Stuff و Coco-Thing و PVOC12 Val محاسبه می شود. این تنظیم باعث می شود که بازنمایی های ما تحت تعاریف مختلف شی (به عنوان مثال چیزها در مقابل چیز) و دانه ها ارزیابی شوند. جزئیات بیشتر در پیوست ارائه شده است.

4. 2 فرسایش ضرر تنظیم خوب

در این بخش ، ما مهمترین تصمیمات طراحی و هایپرپارامترهای از دست دادن خوب تنظیم و همچنین مناسب بودن مجموعه داده های مختلف برای یادگیری قطعات شی را ابراز می کنیم. ما در مورد PVOC Val ارزیابی می کنیم و سه دانه اورکستراسیون مختلف را در کنار نتایج LC گزارش می دهیم.

پلتفرم های تجاری...
ما را در سایت پلتفرم های تجاری دنبال می کنید

برچسب : نویسنده : کمال بهروزکیا بازدید : 57 تاريخ : سه شنبه 8 فروردين 1402 ساعت: 3:22