هسته سیستم موضوعی Core Topicality Systems گوگل چیست؟

مقاله ترجمه شده Roger Montti
--------------------------------

به نقل از مقاله منتشر شده در search engine journal ، تازگی ارتباط موضوعی با الگوریتم‌های رتبه‌بندی جستجو در حوزه سئو مورد توجه قرار گرفته است، به‌خصوص پس از اینکه در پادکست اخیر Google Search Off The Record به وجود سیستم‌های مرکزی موضوعی به‌عنوان بخشی از الگوریتم‌های رتبه‌بندی اشاره شد. بنابراین، ممکن است مفید باشد که درباره هسته سیستم موضوعی گوگل و تأثیر آنها بر سئو فکر کنیم.

اطلاعات زیادی در مورد آنچه که می‌تواند بخشی از این سیستم‌های مرکزی موضوعی باشد، در دست نیست، اما می‌توان استنباط کرد که این سیستم‌ها چه مواردی را شامل می‌شوند. مستندات گوگل برای سرویس جستجوی ابری تجاری خود تعریفی از موضوعیت ارائه می‌دهد که اگرچه در زمینه موتور جستجوی خود گوگل نیست، اما ایده‌ای مفید از آنچه گوگل ممکن است با سیستم‌های مرکزی موضوعی به آن اشاره کند، ارائه می‌دهد.

این‌گونه است که آن مستندات ابری، موضوعیت را تعریف می‌کند:

موضوعیت به میزان ارتباط یک نتیجه جستجو با اصطلاحات اصلی جستجو اشاره دارد.

این توضیح خوبی از رابطه صفحات وب با جستجوهای کاربران در زمینه نتایج جستجو است. نیازی به پیچیده‌تر کردن این تعریف نیست.

می خوای تو بــهترین مــوقعیت های شـــغلی اســتخدام بشــی ؟

به دنیایی از آموزش های هیجان انگیز و پردرآمد قدم بگذارید

می خوای تو بــهترین مــوقعیت های شـــغلی اســتخدام بشــی ؟

چگونه به ارتباط هسته سیستم موضوعی گوگل دست یابیم؟

در ابتدا دانستیم که هسته سیستم موضوعی گوگل دقیقا چیست. نقطه شروع برای درک اینکه چه چیزی می‌تواند بخشی از هسته سیستم موضوعی گوگل باشد، این است که ببینیم موتورهای جستجو چگونه کوئری‌های جستجو را درک می‌کنند و موضوعات را در اسناد صفحات وب نمایان می‌سازند.

  • درک کوئری‌های جستجو
  • درک موضوعات 
چگونه به ارتباط هسته سیستم موضوعی گوگل دست یابیم؟

همه چیز درباره هسته سیستم موضوعی گوگل

درک موارد جستجو شده در گوگل

درک معنای جملات کاربران به نوعی به درک موضوعی که کاربر به آن علاقه‌مند است، برمی‌گردد. جستجوی کاربران در موتورهای جستجو دارای ویژگی طبقه‌بندی است، به این معنا که کاربر ممکن است از عبارتی مبهم استفاده کند، در حالی که منظور دقیق‌تری دارد.

اولین سیستم هوش مصنوعی که گوگل در هسته سیستم موضوعی گوگل راه‌اندازی کرد، RankBrain نام داشت و به‌منظور درک بهتر مفاهیم موجود در عبارات جستجو به کار گرفته شد. واژه «مفهوم» گسترده‌تر از «موضوع» است، زیرا مفاهیم نمایشی انتزاعی هستند. سیستمی که مفاهیم را در جستجوها درک می‌کند، می‌تواند به موتور جستجو کمک کند تا نتایج مرتبط را در Google Core Topicality Systems درست ارائه دهد.

گوگل کار RankBrain را به این صورت توضیح داد:

«RankBrain به ما کمک می‌کند تا اطلاعاتی را پیدا کنیم که قبلاً قادر به یافتن آن‌ها نبودیم، با درک کلی‌تر این‌که چگونه کلمات در یک جستجو به مفاهیم واقعی دنیا مرتبط می‌شوند. برای مثال، اگر شما عبارت عنوان مصرف‌کننده در بالاترین سطح یک زنجیره غذایی چیست؟ را جستجو کنید، سیستم‌های ما از دیدن این کلمات در صفحات مختلف یاد می‌گیرند که مفهوم زنجیره غذایی به حیوانات مربوط است، نه به مصرف‌کنندگان انسانی. با درک و تطبیق این کلمات با مفاهیم مرتبط، RankBrain متوجه می‌شود که شما به دنبال چیزی هستید که معمولاً به عنوان «شکارچی راس هرم» شناخته می‌شود.»

در پاسخ به سوال برخی کاربران درباره مفهوم الگوریتم RankBrain چیست می توان گفت که RankBrain بخشی از الگوریتم های گوگل است که در آن از هوش‌ مصنوعی و یادگیری‌ ماشین برای درک بهتر هدف کاربر از عبارتی که جست‌وجو کرده است، استفاده می‌شود..

BERT مدلی از یادگیری عمیق است که به “هسته سیستم موضوعی گوگل” کمک می‌کند تا زمینه کلمات در عبارات جستجو را درک کند و به‌صورت دقیق‌تری موضوع کلی متن را بشناسد.

درک موارد جستجو شده در گوگل

درک موضوعات

فکر نمی‌کنم که موتورهای جستجوی مدرن دیگر از مدل‌سازی موضوعی استفاده کنند، زیرا یادگیری عمیق و هوش مصنوعی جایگزین آن شده‌اند. در گذشته از یک تکنیک مدل‌ سازی به نام مدل‌ سازی موضوعی استفاده می‌شد تا موتورهای جستجو بتوانند درک کنند که محتوای یک صفحه وب درباره چیست و آن را با جستجوهای کاربران تطبیق دهند. 

مدل «تخصیص دیریکله پنهان» (Latent Dirichlet Allocation – LDA) در اواسط دهه ۲۰۰۰ یک فناوری پیشرو بود که به موتورهای جستجو کمک می‌کرد تا موضوعات را بهتر درک کنند. حدود سال ۲۰۱۵ محققان مقالاتی در مورد مدل سند متغیر عصبی (Neural Variational Document Model – NVDM) منتشر کردند که راهی قدرتمندتر برای نمایش موضوعات اساسی اسناد بود.

یکی از آخرین مقالات تحقیقاتی با عنوان «فراتر از بله و خیر: بهبود رتبه‌بندی مدل‌های زبانی عظیم بدون آموزش با استفاده از برچسب‌های مرتبط با دقت بالا» است. این مقاله درباره ارتقای استفاده از مدل‌های زبانی بزرگ برای رتبه‌بندی صفحات وب، به فرآیندی برای امتیازدهی به میزان ارتباط است. 

این تحقیق به جای رتبه‌بندی دوتایی «بله» یا «خیر»، روشی دقیق‌تر را پیشنهاد می‌کند که از برچسب‌هایی مانند «بسیار مرتبط»، «نسبتاً مرتبط» و «نامرتبط» استفاده می‌کند. این مقاله تحقیقاتی بیان می‌کند:

«ما پیشنهاد می‌کنیم که برچسب‌های مرتبط با دقت بالا را در اعلان مدل‌های رتبه‌بندی زبان بزرگ قرار دهیم تا آنها بتوانند تفاوت بین اسناد با سطوح مختلف مرتبط بودن با پرسش را بهتر تشخیص داده و رتبه‌بندی دقیق‌تری ارائه دهند.»

درک موضوعات

از تفکر تقلیل گرایانه اجتناب کنید!

موتورهای جستجو فراتر از بازیابی اطلاعات حرکت کرده‌اند و مدت‌هاست که به سمت پاسخ‌گویی به پرسش‌ها می‌روند. این روند در سال‌های اخیر و ماه‌های اخیر شتاب بیشتری گرفته است. این موضوع در مقاله‌ای در سال 2001 پیش‌بینی شده بود که عنوان آن بازنگری در جستجو: تبدیل افراد تازه‌کار به متخصصان حوزه بود و در آن بر ضرورت ارائه پاسخ‌های انسانی به طور کامل تأکید شده بود. مقاله این‌گونه آغاز می‌شود:

زمانی که کاربران به اطلاعات نیاز دارند، تمایل دارند با یک متخصص حوزه تعامل کنند، اما اغلب به یک سیستم بازیابی اطلاعات مانند موتور جستجو مراجعه می‌کنند. سیستم‌های کلاسیک بازیابی اطلاعات به‌طور مستقیم نیازهای اطلاعاتی را برآورده نمی‌کنند و به جای آن به منابعی (امیدوارانه معتبر) برای پاسخ‌ها ارجاع می‌دهند. 

سیستم‌های موفق پرسش‌پاسخ تنها یک مجموعه محدود از پاسخ‌ها را توسط متخصصان انسانی و به‌صورت درخواستی ایجاد می‌کنند که نه به‌موقع است و نه مقیاس‌پذیر. مدل‌های زبان از پیش آموزش دیده، برعکس، قادر به تولید مستقیم متنی هستند که ممکن است به نیاز اطلاعاتی پاسخ دهد، اما در حال حاضر این مدل‌ها بیشتر تازه‌کارند تا متخصصان حوزه – آن‌ها درک واقعی از جهان ندارند…

موضوعتوضیحات
تحول موتورهای جستجوموتورهای جستجو فراتر از بازیابی اطلاعات حرکت کرده‌اند و به سمت پاسخ‌گویی به پرسش‌ها می‌روند.
پیش‌بینی در سال 2001مقاله‌ای در سال 2001 با عنوان “بازنگری در جستجو: تبدیل افراد تازه‌کار به متخصصان حوزه” به ضرورت ارائه پاسخ‌های انسانی تأکید داشت.
آغاز مقالهکاربران ترجیح می‌دهند به جای سیستم‌های بازیابی اطلاعات با یک متخصص حوزه تعامل کنند، اما اغلب به موتورهای جستجو روی می‌آورند.
محدودیت‌های سیستم‌های بازیابی اطلاعاتسیستم‌های کلاسیک نیازهای اطلاعاتی را مستقیماً برآورده نمی‌کنند و کاربران را به منابع معتبر برای پاسخ‌ها ارجاع می‌دهند.
مشکلات سیستم‌های پرسش‌پاسخسیستم‌های موفق پرسش‌پاسخ تنها یک مجموعه محدود از پاسخ‌ها را توسط متخصصان انسانی به‌صورت درخواستی تولید می‌کنند که نه به‌موقع است و نه مقیاس‌پذیر.
مدل‌های زبان از پیش آموزش‌دیدهمدل‌های زبان از پیش آموزش‌دیده قادرند مستقیماً به نیازهای اطلاعاتی پاسخ دهند، اما هنوز به جای یک متخصص حوزه، بیشتر در سطح تازه‌کاران هستند و درک واقعی از جهان ندارند.
سخن پایانی

نکته اصلی این است که تأکید بیش از حد بر کلمات کلیدی، عناصر عنوان و سرفصل‌ها و رویکردهای تقلیل‌گرا برای فهم چگونگی رتبه‌بندی صفحات وب توسط گوگل، نتیجه‌ی معکوس دارد. فناوری‌های زیربنایی به سرعت به سمت درک بهتر جهان پیش می‌روند، بنابراین اگر بخواهیم درباره‌ی سیستم‌های موضوعی اصلی فکر کنیم، بهتر است آن را در چارچوبی فراتر از سیستم‌های بازیابی اطلاعات «کلاسیک» قرار دهیم.

روش‌هایی که گوگل برای درک موضوعات صفحات وب مرتبط با جستجوها به کار می‌گیرد، به طور فزاینده‌ای پیچیده شده‌اند و آشنایی با روش‌هایی که گوگل در گذشته استفاده می‌کرده و احتمالا امروزه استفاده می‌کند، ایده خوبی است.