یادگیری مشابه

یادگیری مشابه (به انگلیسی = Similarity learning) بخشی از یادگیری نظارت شده ماشینی در هوش مصنوعی است. هدف از یادگیری تابع شباهت این است که میزان شباهت یا مرتبط بودن دو شی را اندازه‌گیری کند. کاربرد این یادگیری در زمینه‌هایی اعم از رتبه‌بندی، در سیستم‌های توصیه، ردیابی هویت بصری، تأیید چهره و تأیید سخنران است.

همچنین یادگیری مشابه از نظرهای زیادی مرتبط با تحلیل رگرسیون و طبقه‌بندی اماری است.

راه اندازی ویرایش

چهار روش راه اندازی برای یادگیری مشابه و یادگیری متریک وجود دارد.

یادگیری مشابه: تحلیل رگرسیونی: در این روش راه اندازی، جفت اشیاء $(x_{i}^{1},x_{i}^{2})$ به همراه معیاری از شباهت میان آنها $y_{i}\in R$ به ما داده می‌شوند. هدف_، یادگیری تابعی است که به صورت تقریبی برای هر نمونه سه‌گانه جدید $(x_{i}^{1},x_{i}^{2},y_{i})$ نشان می‌دهد: $f(x_{i}^{1},x_{i}^{2})\sim y_{i}$ که با به حداقل رساندن ضرر منظم به دست می‌آید: $\min _{W}\sum _{i}loss(w;x_{i}^{1},x_{i}^{2},y_{i})+reg(w)$ .
یادگیری مشایه: طبقه‌بندی آماری: در این روش راه اندازی جفت اشیاء مشابه $(x_{i},x_{i}^{+})$ و اشیاء غیر مشابه $(x_{i},x_{i}^{-})$ داده شده‌است. این معادل این است که هر جفت $(x_{i}^{1},x_{i}^{2})$ همراه با یک برچسب باینری $y_{i}\in \{0,1\}$ داده می‌شود، که مشخص می‌کند این دو شی مشابه هستند یا خیر. در اینجا نیز هدف، یادگیری طبقه‌بندی کننده‌ای است که به ما نشان دهد آیا می‌تواند تصمیم بگیرد; یک جفت شی جدید مشابه هستند یا خیر.
یادگیری مشابه: رتبه بندی شده: در این روش راه اندازی، سه‌گانه ای از اشیاء $(x_{i},x_{i}^{+},x_{i}^{-})$ داده شده‌است که شباهت نسبی آنها از نظمی که از پیش تعیین شده پیروی می‌کند. این نظم می‌گوید: $x_{i}$ معروف است به این که بیشتر شبیه به $x_{i}^{+}$ است تا $x_{i}^{-}$ . هدف یادگیری یک تابع است مانند $f$ به طوری که برای هر سه‌گانه جدید از اشیاء $(x,x^{+},x^{-})$ ، اطاعت کند از نامساوی زیر: $f(x,x^{+})>f(x,x^{-})$ (یادگیری متضاد). این روش شکل ضعیف تری از نظارت را نسبت به تحلیل رگرسیون نشان می‌دهد، زیرا به جای ارائه معیار دقیق شباهت، فقط باید ترتیب نسبی شباهت‌ها را ارائه کند. به همین دلیل، یادگیری مشابه رتبه‌بندی شده راحت تر در معیارهای بزرگ مورد استفاده قرار می‌گیرد.
هشینگ حساس به مکان (LSH)^[۱]: در این روش، موارد ورودی را هش می‌کند تا موارد مانند هم که دارای احتمال زیاد تری هستند به همان «سطل» در حافظه نگاشت شوند (تعداد سطل‌ها کوچکتر از تعداد آیتم‌های ورودی ممکن است). اغلب در جستجو نزدیک‌ترین همسایه بر روی داده‌هایی با تعداد زیاد و در مقیاس بزرگ کاربرد دارد. به عنوان مثال، پایگاه‌های داده تصاویر، مجموعه اسناد، پایگاه‌های داده سری زمانی، و پایگاه‌های داده ژنوم استفاده می‌شود.^[۲]

یک رویکرد رایج در یادگیری مشابه، مدل‌سازی تابع شباهت به صورت یک فرم دوخطی است. برای مثال، در مورد یادگیری مشابه: رتبه‌بندی شده، هدف یادگیری ماتریسی مانند W داست که تابع مشابه $f_{W}(x,z)=x^{T}Wz$ را پارامتری می‌کند. . هنگامی که داده‌های فراوانی وجود دارد، یک روش دیگر یادگیری یک شبکه سیامی است - یک مدل شبکه عمیق با به اشتراک گذاری پارامترها.

یادگیری متریک ویرایش

یادگیری مشابه ارتباط نزدیکی با یادگیری متریک از راه دور دارد. وظیفه یادگیری متریک این است که میزان شباهت بین نمونه‌ها را با استفاده از تابع فاصله محاسبه کند. یک تابع متریک یا فاصله باید از چهار چیز بدیهی پیروی کند: غیر منفی بودن، هویت غیرقابل تشخیص‌ها، تقارن و زیرجمع‌ها (یا نابرابری مثلث). در عمل، الگوریتم‌های یادگیری متریک شرط هویت غیرقابل تشخیص‌ها را نادیده می‌گیرند و شبه متریک را یادمی‌گیرند.

در نظر داشته باشید که وقتی اشیاء $x_{i}$ برداری در $R^{d}$ هستند و هر ماتریسی مانند $W$ که نیمه مثبت معین و متقارن آن $S_{+}^{d}$ است که شبه متریک فاصله را در فضای x از طریق فرمول $D_{W}(x_{1},x_{2})^{2}=(x_{1}-x_{2})^{\top }W(x_{1}-x_{2})$

بتوان تعریف کرد.

اما در حالتی دیگر وقتی که $W$ یک ماتریس قطعی مثبت متقارن است، $D_{W}$ یک متریک یا ستجه (تابع فاصله) به‌شمار می‌رود.

لازم است ذکر شود که، مانند هر ماتریس نیمه معین مثبت متقارن دیگری $W\in S_{+}^{d}$ می‌تواند به عنوان $W=L^{\top }L$ نیز تجزیه و تحلیل شود فقط در زمانی که شرط‌های $L\in R^{e\times d}$ و $e\geq rank(W)$ برقرار باشند.

همچنین تابع فاصله $D_{W}$ را که در بالا به آن اشاره کردیم می‌توان به صورت زیر نیز استفاده کرد:

$D_{W}(x_{1},x_{2})^{2}=(x_{1}-x_{2})^{\top }L^{\top }L(x_{1}-x_{2})=\|L(x_{1}-x_{2})\|_{2}^{2}$ .

در نظر داشته باشید که فاصله $D_{W}(x_{1},x_{2})^{2}=\|x_{1}'-x_{2}'\|_{2}^{2}$ مطابق فاصله اقلیدسی (وابسته به هندسه اقلیدسی) بین بردارهای ویژگی $x_{1}'=Lx_{1}$ و $x_{2}'=Lx_{2}$ است.

علاوه بر فرمول‌های بالا، فرمول‌های بسیار دیگری نیز برای یادگیری متریک مطرح شده‌اند.^[۳]^[۴] برخی از رویکردهای شناخته شده و معروف برای یادگیری متریک شامل یادگیری از مقایسه‌های نسبی است^[۵] که بر اساس از دست دادن سه‌گانه، نزدیک‌ترین همسایه حاشیه بزرگ،^[۶] یادگیری متریک نظری اطلاعات (ITML) هستند.^[۷]

در آمار و ریاضیات، در بعضی مواقع ماتریس کوواریانس داده‌ها برای تعریف یک متریک فاصله به نام فاصله ماهالانوبیس استفاده می‌شود.

کاربردها ویرایش

یادگیری مشابه در بازیابی اطلاعات برای یادگیری رتبه‌بندی، در تأیید چهره یا شناسایی چهره،^[۸]^[۹] و در سیستم‌های توصیه استفاده می‌شود. همچنین، بسیاری از رویکردهای یادگیری ماشینی بر معیارهای متریک تکیه دارند. این معیارها شامل یادگیری بدون نظارت مانند خوشه بندی است که اشیاء همانند و نزدیک به هم یا مشابه را با هم طبقه‌بندی می‌کند. همچنین شامل رویکردهای نظارت شده مانند الگوریتم K-نزدیکترین همسایه است که برای تصمیم‌گیری در مورد یک شی جدید نسبت به اشیاء نزدیک آن متکی است. پیشنهاد می‌شود که برای درک هرچه بهتر این رویکردها یادگیری متریک به عنوان یک مرحله پیش خوان مورد نظر قرار گیرد.

مقیاس پذیری ویرایش

یادگیری متریک ویادگیری مشابه به سادگی و با ابعاد فضای ورودی به صورت درجه دوم مورد مقیاس قرار می‌گیرند، همان‌طور که به راحتی می‌توان از روی فرم دو خطی بودن $f_{W}(x,z)=x^{T}Wz$ متریک آموخته شده متوجه آن شد.

مقیاس بندی به ابعاد بالاتر را می‌توان با اعمال ساختار پراکندگی بر روی ماتریس مدل، همان‌طور که با HDSL,^[۱۰] و با COMET انجام شد، به دست آورد.^[۱۱]

جستارهای وابسته ویرایش

برای مطالعهٔ بیشتر ویرایش

برای کسب اطلاعات بیشتر در این موضوع، به بررسی‌های مربوط به یادگیری متریک و یادگیری مشابه که توسط بلت و همکارانش^[۱۲] انجام شده و همچنین بررسی‌های کولیس^[۱۳] مراجعه کنید. .

منابع ویرایش

↑ Gionis, Aristides, Piotr Indyk, and Rajeev Motwani. "Similarity search in high dimensions via hashing." VLDB. Vol. 99. No. 6. 1999.
↑ Rajaraman, A.; Ullman, J. (2010). "Mining of Massive Datasets, Ch. 3".
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
↑ Kulis, B. (2012). "Metric Learning: A Survey". Foundations and Trends in Machine Learning. 5 (4): 287–364. doi:10.1561/2200000019.
↑ Schultz, M.; Joachims, T. (2004). "Learning a distance metric from relative comparisons" (PDF). Advances in Neural Information Processing Systems. 16: 41–48.
↑ Weinberger, K. Q.; Blitzer, J. C.; Saul, L. K. (2006). "Distance Metric Learning for Large Margin Nearest Neighbor Classification" (PDF). Advances in Neural Information Processing Systems. 18: 1473–1480. Archived from the original (PDF) on 15 January 2011. Retrieved 26 June 2022.
↑ Davis, J. V.; Kulis, B.; Jain, P.; Sra, S.; Dhillon, I. S. (2007). "Information-theoretic metric learning". International Conference in Machine Learning (ICML): 209–216.
↑ Guillaumin, M.; Verbeek, J.; Schmid, C. (2009). "Is that you? Metric learning approaches for face identification" (PDF). IEEE International Conference on Computer Vision (ICCV).
↑ Mignon, A.; Jurie, F. (2012). "PCCA: A new approach for distance learning from sparse pairwise constraints" (PDF). IEEE Conference on Computer Vision and Pattern Recognition.
↑ Liu; Bellet; Sha (2015). "Similarity Learning for High-Dimensional Sparse Data" (PDF). International Conference on Artificial Intelligence and Statistics (AISTATS). arXiv:1411.2374. Bibcode:2014arXiv1411.2374L. Archived from the original (PDF) on 23 February 2016. Retrieved 26 June 2022.
↑ Atzmon; Shalit; Chechik (2015). "Learning Sparse Metrics, One Feature at a Time" (PDF). J. Mach. Learn. Research (JMLR). Archived from the original (PDF) on 26 August 2016. Retrieved 26 June 2022.
↑ Bellet, A.; Habrard, A.; Sebban, M. (2013). "A Survey on Metric Learning for Feature Vectors and Structured Data". arXiv:1306.6709 [cs.LG].
↑ Kulis, B. (2012). "Metric Learning: A Survey". Foundations and Trends in Machine Learning. 5 (4): 287–364. doi:10.1561/2200000019.

[1] Gionis, Aristides, Piotr Indyk, and Rajeev Motwani. "Similarity search in high dimensions via hashing." VLDB. Vol. 99. No. 6. 1999.

[2] Rajaraman, A.; Ullman, J. (2010). "Mining of Massive Datasets, Ch. 3".

[survey-3] A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].

[survey2-4] Kulis, B. (2012). "Metric Learning: A Survey". Foundations and Trends in Machine Learning. 5 (4): 287–364. doi:10.1561/2200000019.

[SchultzJoachims-5] Schultz, M.; Joachims, T. (2004). "Learning a distance metric from relative comparisons" (PDF). Advances in Neural Information Processing Systems. 16: 41–48.

[LMNN-6] Weinberger, K. Q.; Blitzer, J. C.; Saul, L. K. (2006). "Distance Metric Learning for Large Margin Nearest Neighbor Classification" (PDF). Advances in Neural Information Processing Systems. 18: 1473–1480. Archived from the original (PDF) on 15 January 2011. Retrieved 26 June 2022.

[ITML-7] Davis, J. V.; Kulis, B.; Jain, P.; Sra, S.; Dhillon, I. S. (2007). "Information-theoretic metric learning". International Conference in Machine Learning (ICML): 209–216.

[GUILLAUMIN-8] Guillaumin, M.; Verbeek, J.; Schmid, C. (2009). "Is that you? Metric learning approaches for face identification" (PDF). IEEE International Conference on Computer Vision (ICCV).

[MIGNON-9] Mignon, A.; Jurie, F. (2012). "PCCA: A new approach for distance learning from sparse pairwise constraints" (PDF). IEEE Conference on Computer Vision and Pattern Recognition.

[Liu-10] Liu; Bellet; Sha (2015). "Similarity Learning for High-Dimensional Sparse Data" (PDF). International Conference on Artificial Intelligence and Statistics (AISTATS). arXiv:1411.2374. Bibcode:2014arXiv1411.2374L. Archived from the original (PDF) on 23 February 2016. Retrieved 26 June 2022.

[11] Atzmon; Shalit; Chechik (2015). "Learning Sparse Metrics, One Feature at a Time" (PDF). J. Mach. Learn. Research (JMLR). Archived from the original (PDF) on 26 August 2016. Retrieved 26 June 2022.

[survey3-12] Bellet, A.; Habrard, A.; Sebban, M. (2013). "A Survey on Metric Learning for Feature Vectors and Structured Data". arXiv:1306.6709 [cs.LG].

[survey22-13] Kulis, B. (2012). "Metric Learning: A Survey". Foundations and Trends in Machine Learning. 5 (4): 287–364. doi:10.1561/2200000019.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]