تحقیقات الگوریتم رتبه بندی گوگل TW-BERT را معرفی می کند

توسط : امیر محمد امینی
تاریخ انتشار : 23 مرداد 1402
ساعت : 9:00 ب.ظ
ویرایش : 24 مرداد 1402
بازدید : 147

مقاله تحقیقاتی گوگل چارچوب قابل توجهی به نام TW-BERT را توصیف می کند که رتبه بندی جستجو را بدون نیاز به تغییرات عمده بهبود می بخشد. TW-BERT یک چارچوب وزن دهی عبارت پرس و جو سرتاسر است که دو پارادایم را برای بهبود نتایج جستجو پیوند می دهد. با مدل های بسط پرس و جو موجود ادغام می شود و عملکرد را بهبود می بخشد. استقرار چارچوب جدید به حداقل تغییرات نیاز دارد.

تحقیقات الگوریتم رتبه بندی گوگل TW-BERT را معرفی می کند

گوگل یک چارچوب رتبه بندی قابل توجه به نام Term Weighting BERT (TW-BERT) را معرفی کرد که نتایج جستجو را بهبود می بخشد و به راحتی در سیستم های رتبه بندی موجود به کار می رود. اگرچه گوگل استفاده از TW-BERT را تایید نکرده است، این چارچوب جدید پیشرفتی است که فرآیندهای رتبه بندی را در سراسر صفحه بهبود می بخشد، از جمله در گسترش پرس و جو. همچنین استقرار آن آسان است، که به نظر من احتمال استفاده از آن را افزایش می دهد.

TW-BERT نویسندگان مشترک زیادی دارد، از جمله مارک ناجورک ، دانشمند پژوهشی برجسته در Google DeepMind و مدیر ارشد سابق مهندسی تحقیقات در Google Research. او مقالات تحقیقاتی بسیاری را در زمینه موضوعات مرتبط با فرآیندهای رتبه بندی و بسیاری از زمینه های دیگر تالیف کرده است. در میان مقالات مارک نایورک به عنوان یکی از نویسندگان ذکر شده است:

در مورد بهینه سازی معیارهای Top-K برای مدل های رتبه بندی عصبی – 2022
مدل‌های زبان پویا برای محتوای در حال تکامل پیوسته – 2021
بازاندیشی جستجو: ساخت متخصصان دامنه از Dilettantes – 2021
تبدیل ویژگی برای مدل‌های رتبه‌بندی عصبی – – ۲۰۲۰
یادگیری تا رتبه با BERT در رتبه بندی TF – 2020
تطبیق متن معنایی برای اسناد طولانی – 2019
رتبه بندی TF: کتابخانه TensorFlow مقیاس پذیر برای یادگیری تا رتبه – 2018
چارچوب LambdaLoss برای رتبه بندی بهینه سازی متریک – 2018
آموزش رتبه بندی با سوگیری انتخاب در جستجوی شخصی – 2016

TW-BERT چیست؟

TW-BERT یک چارچوب رتبه‌بندی است که امتیازهایی (به نام وزن‌ها) را به کلمات درون یک عبارت جستجو اختصاص می‌دهد تا با دقت بیشتری مشخص کند چه اسنادی برای آن عبارت جستجو مرتبط هستند. TW-BERT همچنین در Query Expansion مفید است. Query Expansion فرآیندی است که یک عبارت جستجو را مجدداً بیان می‌کند یا کلمات بیشتری را به آن اضافه می‌کند (مانند افزودن کلمه “رسپی” به عبارت “سوپ مرغ”) تا جستجوی جستجو را بهتر با اسناد مطابقت دهد. افزودن امتیاز به پرس و جو به آن کمک می کند تا بهتر تشخیص دهد که پرس و جو در مورد چیست.

دو پارادایم بازیابی اطلاعات پل های TW-BERT

مقاله تحقیق دو روش مختلف جستجو را مورد بحث قرار می دهد. یکی که مبتنی بر آمار است و دیگری مدل های یادگیری عمیق. در ادامه بحثی در مورد مزایا و معایب این روش‌های مختلف وجود دارد و پیشنهاد می‌شود که TW-BERT راهی برای پل زدن این دو رویکرد بدون هیچ یک از کاستی‌ها است. آنها می نویسند:

«این روش‌های بازیابی مبتنی بر آمار، جستجوی کارآمدی را ارائه می‌کنند که با اندازه پیکره افزایش می‌یابد و به حوزه‌های جدید تعمیم می‌یابد. با این حال، عبارات به طور مستقل وزن داده می شوند و زمینه کل پرس و جو را در نظر نمی گیرند.

محققان سپس خاطرنشان می کنند که مدل های یادگیری عمیق می توانند زمینه پرس و جوهای جستجو را کشف کنند. توضیح داده شده است:

برای این مشکل، مدل‌های یادگیری عمیق می‌توانند این زمینه‌سازی را روی پرس و جو انجام دهند تا بازنمایی بهتری برای اصطلاحات فردی ارائه دهند.

آنچه محققان پیشنهاد می کنند استفاده از TW-Bert برای پل زدن این دو روش است. پیشرفت شرح داده شده است:

«ما این دو پارادایم را برای تعیین مرتبط‌ترین یا نامرتبط‌ترین عبارت‌های جستجو در جست‌وجو پیوند می‌دهیم… . سپس این عبارات را می توان با وزن بالا یا کاهش وزن کرد تا به سیستم بازیابی ما اجازه دهد نتایج مرتبط تری تولید کند.

مثالی از وزن عبارت جستجوی TW-BERT

مقاله تحقیقاتی مثالی از عبارت جستجو، “کفش های دویدن نایک” را ارائه می دهد. به عبارت ساده، کلمات “کفش های دویدن نایک” سه کلمه ای هستند که یک الگوریتم رتبه بندی باید به روشی که جستجوگر قصد درک آن را دارد بفهمد. آنها توضیح می دهند که تأکید بر بخش «در حال اجرا» پرس و جو، نتایج جستجوی نامربوطی را نشان می دهد که حاوی مارک هایی غیر از نایک است. در آن مثال، نام تجاری نایک مهم است و به همین دلیل فرآیند رتبه بندی باید مستلزم آن باشد که صفحات وب نامزد دارای کلمه نایک در آنها باشند.

صفحات وب کاندیدا صفحاتی هستند که برای نتایج جستجو در نظر گرفته می شوند. کاری که TW-BERT انجام می دهد این است که برای هر قسمت از جستار جستجو امتیازی (به نام وزن دهی) ارائه می دهد تا به همان شکلی که شخصی که جست و جو را وارد کرده است منطقی باشد. در این مثال کلمه نایک مهم در نظر گرفته شده است، بنابراین باید به آن نمره (وزن) بالاتری داده شود. محققان می نویسند:

بنابراین چالش این است که ما باید اطمینان حاصل کنیم که نایک به اندازه کافی وزن دارد و در عین حال کفش‌های دویدن را در نتایج برگشتی نهایی ارائه می‌کند.

چالش دیگر درک متن کلمات “دویدن” و “کفش” است و این بدان معنی است که وزن برای پیوستن دو کلمه به عنوان یک عبارت، “کفش دویدن” به جای وزن کردن دو کلمه به طور مستقل، باید بیشتر متمایل شود. این مشکل و راه حل توضیح داده شده است:

جنبه دوم این است که چگونه می‌توان از اصطلاحات معنی‌دار n-gram در طول امتیازدهی استفاده کرد. در جستار ما، اصطلاحات «دویدن» و «کفش» به طور مستقل مورد استفاده قرار می‌گیرند، که می‌توانند به همان اندازه با «جوراب‌های دویدن» یا «کفش‌های اسکیت» مطابقت داشته باشند. در این مورد، ما می‌خواهیم که رتریور ما روی سطح عبارت n-gram کار کند تا نشان دهد که «کفش‌های دویدن» باید در هنگام امتیازگیری وزن بیشتری داشته باشند.

حل محدودیت ها در چارچوب های فعلی

مقاله پژوهشی وزن‌دهی سنتی را به‌عنوان محدود بودن در تنوع پرس‌و‌جوها خلاصه می‌کند و اشاره می‌کند که آن روش‌های وزن‌دهی مبتنی بر آمار برای سناریوهای شات صفر عملکرد کمتری دارند. یادگیری صفر شات اشاره ای به توانایی یک مدل برای حل مسئله ای است که برای آن آموزش ندیده است. همچنین خلاصه‌ای از محدودیت‌های ذاتی روش‌های فعلی گسترش اصطلاح وجود دارد. بسط اصطلاح زمانی است که از مترادف ها برای یافتن پاسخ های بیشتر برای پرس و جوهای جستجو یا زمانی که کلمه دیگری استنباط می شود استفاده می شود.

به عنوان مثال، هنگامی که شخصی برای “سوپ مرغ” جستجو می کند، به معنای ” دستور پخت سوپ مرغ “ استنباط می شود . آنها در مورد کاستی های روش های فعلی می نویسند:

این توابع امتیازدهی کمکی برای مراحل وزن دهی اضافی که توسط توابع امتیازدهی استفاده شده در بازیابی های موجود، مانند آمار پرس و جو، آمار اسناد، و مقادیر فراپارامتر انجام می شود، در نظر نمی گیرند. این می تواند توزیع اصلی وزن های ترم اختصاص داده شده را در طول امتیازدهی نهایی و بازیابی تغییر دهد.

در مرحله بعد، محققان بیان می‌کنند که یادگیری عمیق به شکل پیچیدگی به کارگیری آن‌ها و رفتار غیرقابل پیش‌بینی در هنگام مواجهه با حوزه‌های جدیدی که برای آنها از قبل آموزش ندیده‌اند، توشه‌های خاص خود را دارد. این همان جایی است که TW-BERT وارد تصویر می شود.

TW-BERT پل دو رویکرد

راه حل پیشنهادی مانند یک رویکرد ترکیبی است. در نقل قول زیر، اصطلاح IR به معنای بازیابی اطلاعات است. آنها می نویسند:

برای پر کردن شکاف، ما از استحکام بازیابی‌های واژگانی موجود با بازنمایی متن متنی ارائه شده توسط مدل‌های عمیق استفاده می‌کنیم. رتریورهای واژگانی در حال حاضر قابلیت تخصیص وزن به اصطلاحات n-gram را هنگام انجام بازیابی فراهم می کنند.ما از یک مدل زبان در این مرحله از خط لوله استفاده می‌کنیم تا وزن‌های مناسب برای عبارت‌های n-gram پرس و جو ارائه کنیم. این اصطلاح وزن‌سازی BERT (TW-BERT) با استفاده از همان توابع امتیازدهی مورد استفاده در خط لوله بازیابی برای اطمینان از سازگاری بین آموزش و بازیابی بهینه شده است. این منجر به بهبود بازیابی در هنگام استفاده از وزن‌های مدت تولید شده TW-BERT می‌شود و در عین حال زیرساخت IR را مشابه مشابه تولید فعلی خود نگه می‌دارد.

الگوریتم TW-BERT وزن‌هایی را به پرس‌و‌جوها اختصاص می‌دهد تا امتیاز مربوط به دقیق‌تری ارائه کند که بقیه مراحل رتبه‌بندی می‌توانند با آن کار کنند.

استفاده از TW-BERT آسان است

یکی از مزایای TW-BERT این است که می‌توان آن را مستقیماً در فرآیند رتبه‌بندی بازیابی اطلاعات فعلی، مانند یک مؤلفه حذفی، وارد کرد. “این ما را قادر می سازد تا به طور مستقیم وزن های اصطلاح خود را در یک سیستم IR در طول بازیابی مستقر کنیم.

این با روش‌های وزن‌دهی قبلی که نیاز به تنظیم بیشتر پارامترهای بازیابی برای دستیابی به عملکرد بازیابی بهینه دارند، متفاوت است، زیرا آنها وزن‌های ترم بدست‌آمده توسط اکتشافی را به‌جای بهینه‌سازی انتها به انتها بهینه می‌کنند. آنچه در مورد این سهولت استقرار مهم است این است که برای افزودن TW-BERT به فرآیند الگوریتم رتبه‌بندی نیازی به نرم‌افزار تخصصی یا به‌روزرسانی‌های سخت‌افزاری ندارد.

آیا گوگل در الگوریتم رتبه بندی خود از TW-BERT استفاده می کند؟

همانطور که قبلا ذکر شد، استقرار TW-BERT نسبتا آسان است. به نظر من، منطقی است که فرض کنیم سهولت استقرار، احتمال اضافه شدن این چارچوب به الگوریتم گوگل را افزایش می دهد. این بدان معناست که گوگل می تواند TW-BERT را به بخش رتبه بندی الگوریتم اضافه کند، بدون اینکه نیازی به به روز رسانی الگوریتم اصلی در مقیاس کامل باشد. جدای از سهولت استقرار، کیفیت دیگری که باید در حدس زدن اینکه آیا یک الگوریتم می تواند مورد استفاده قرار گیرد یا خیر، این است که الگوریتم تا چه حد در بهبود وضعیت فعلی هنر موفق است.

مقالات تحقیقاتی زیادی وجود دارند که موفقیت محدودی دارند یا پیشرفتی ندارند. این الگوریتم‌ها جالب هستند، اما منطقی است که فرض کنیم در الگوریتم گوگل قرار نخواهند گرفت. موارد مورد علاقه آنهایی هستند که بسیار موفق هستند و این مورد در مورد TW-BERT است. TW-BERT بسیار موفق است. آنها گفتند که به راحتی می توان آن را در یک الگوریتم رتبه بندی موجود قرار داد و عملکرد آن به همان اندازه “رتبه بندی عصبی متراکم” است. محققان توضیح دادند که چگونه سیستم های رتبه بندی فعلی را بهبود می بخشد:

با استفاده از این چارچوب‌های بازیابی، نشان می‌دهیم که روش وزن‌دهی اصطلاحی ما از استراتژی‌های وزن‌دهی دوره پایه برای وظایف درون دامنه بهتر عمل می‌کند. در وظایف خارج از دامنه، TW-BERT نسبت به استراتژی‌های وزن‌دهی پایه و همچنین رتبه‌بندی‌های عصبی متراکم بهبود می‌یابد. ما بیشتر کاربرد مدل خود را با ادغام آن با مدل‌های بسط پرس و جو موجود نشان می‌دهیم، که عملکرد را نسبت به جستجوی استاندارد و بازیابی متراکم در موارد صفر شات بهبود می‌بخشد. این انگیزه می‌دهد که کار ما می‌تواند بهبودهایی را در سیستم‌های بازیابی موجود با کمترین اصطکاک روی برد ارائه کند.»

بنابراین این دو دلیل خوب است که چرا TW-BERT ممکن است بخشی از الگوریتم رتبه‌بندی گوگل باشد.

این یک بهبود کلی در چارچوب های رتبه بندی فعلی است
استقرار آن آسان است

اگر گوگل TW-BERT را به کار گرفته باشد، ممکن است نوسانات رتبه‌بندی که ابزارهای نظارت سئو و اعضای جامعه بازاریابی جستجو در ماه گذشته گزارش کرده‌اند را توضیح دهد. به طور کلی، گوگل فقط برخی از تغییرات رتبه‌بندی را اعلام می‌کند، به‌ویژه زمانی که تأثیر قابل‌توجهی داشته باشند، مانند زمانی که Google الگوریتم BERT را اعلام کرد .

در غیاب تایید رسمی، ما فقط می توانیم در مورد احتمال اینکه TW-BERT بخشی از الگوریتم رتبه بندی جستجوی گوگل است، حدس بزنیم. با این وجود، TW-BERT یک چارچوب قابل توجه است که به نظر می رسد دقت سیستم های بازیابی اطلاعات را بهبود می بخشد و می تواند توسط گوگل استفاده شود.

گالری تصاویر مقاله تحقیقات الگوریتم رتبه بندی گوگل TW-BERT را معرفی می کند در زیر شما میتوانید تصاویر مربوط به این پست را به صورت گالری مشاهده کنید.