امروز:9 اردیبهشت 1403

الگوریتم «متن باز» توییتر واقعاً چه چیزی را فاش کرد؟ انتظار زیادی نداشته باشیم!

زمانی که ایلان ماسک برای اولین بار پیشنهاد مدیریت توییتر را داد، یکی از اولین تغییراتی که او ادعا کرد انجام خواهد داد، الگوریتم «منبع باز» توییتر است. هفته گذشته، توییتر سرانجام به این وعده عمل کرد و کد زیربنایی توصیه‌های «برای شما» سایت را در GitHub منتشر کرد.

کارآگاهان توییتر به سرعت شروع به بررسی کدها کردند تا ببینند چه چیزی می توانند کشف کنند. طولی نکشید که یک یافته شگفت‌انگیز: اینکه توییت‌های ماسک دسته‌بندی خاص خود را دارد (در کنار دموکرات‌ها، جمهوری‌خواهان و «کاربران قدرتمند»). مهندسان توییتر با عجله توضیح دادند که این برای “اهداف ردیابی آمار” بوده است که از آن زمان توسط سایر تجزیه و تحلیل ها تایید شده است. و اگرچه توییتر این بخش از کد را در چند ساعت پس از انتشار از GitHub حذف کرد، اما همچنان این گمانه زنی را تقویت می کند که مهندسان توییتر توجه ویژه ای به تعامل رئیس خود دارند و اقداماتی را برای تقویت مصنوعی توییت های وی انجام داده اند.

اما از آن زمان تا به حال اطلاعات مهم دیگری در مورد محتوای کد یا نحوه عملکرد الگوریتم توییتر وجود داشته است. و هر کسی که امیدوار است این کد عمومی بینش جدیدی در مورد عملکرد درونی توییتر ایجاد کند، احتمالاً ناامید خواهد شد. این به این دلیل است که به گفته مهندسانی که آن را مطالعه کرده‌اند، کدی که توییتر منتشر کرد، جزئیات مهمی درباره نحوه عملکرد واقعی «الگوریتم» را حذف کرد.

به گفته سول مسینگ، استادیار مرکز رسانه های اجتماعی و سیاست دانشگاه نیویورک و کارمند سابق توییتر، کدی که توییتر به اشتراک گذاشته بود، نسخه «بسیار ویرایش شده» الگوریتم توییتر بود. اولاً، شامل هر سیستمی که در توصیه‌های توییتر نقشی ایفا می‌کند، نمی‌شود.

توییتر اعلام کرد که کدهای مربوط به تبلیغات و همچنین سیستم‌های اعتماد و ایمنی را در تلاش برای جلوگیری از بازی بازیگران بد در آن پنهان کرده است. این شرکت همچنین تصمیم گرفت از مدل‌های اساسی مورد استفاده برای آموزش الگوریتم خود خودداری کند، و در یک پست وبلاگی در هفته گذشته توضیح داد که این کار “برای اطمینان از اینکه ایمنی و حریم خصوصی کاربر محافظت می شود” بود. به گفته مسینگ، این تصمیم حتی پیامدتر است. او به من می‌گوید: «مدلی که مهمترین بخش الگوریتم را هدایت می‌کند، منبع باز نبوده است. بنابراین مهمترین بخش الگوریتم هنوز غیرقابل درک است.

به نظر می‌رسد انگیزه اصلی ماسک برای ایجاد الگوریتم متن‌باز از این باور او ناشی می‌شود که توییتر از این الگوریتم برای سرکوب آزادی بیان استفاده کرده است. ماسک در آوریل گذشته در یک حضور در توییتر گفت: “یکی از کارهایی که من معتقدم توییتر باید انجام دهد این است که الگوریتم را منبع باز کند و هر گونه تغییری در توییت های افراد ایجاد کند – در صورت تاکید یا عدم تاکید – این اقدام باید آشکار شود.” TED مدت کوتاهی پس از اینکه او پیشنهاد خرید خود را تایید کرد. بنابراین هر کسی می تواند ببیند که اقدامی انجام شده است، بنابراین هیچ گونه دستکاری در پشت صحنه، چه به صورت الگوریتمی یا دستی وجود ندارد.

اما هیچ یک از کدهایی که توییتر منتشر کرد، چیز زیادی درباره سوگیری احتمالی یا نوع «دستکاری در پشت صحنه» که ماسک گفته بود می‌خواهد فاش کند، به ما نمی‌گوید. مسینگ می گوید: «این طعم شفافیت را دارد. “اما واقعاً بینشی در مورد آنچه الگوریتم انجام می دهد نمی دهد. این واقعاً بینشی در مورد اینکه چرا توییت‌های یک نفر ممکن است پایین‌تر باشد و چرا دیگران ممکن است رتبه‌بندی شوند، نمی‌دهد.»

مسینگ همچنین اشاره می‌کند که تغییرات اخیر API توییتر اساساً اکثریت قریب به اتفاق محققان را از دسترسی به مقدار قابل توجهی از داده‌های توییتر محروم کرده است. بدون دسترسی مناسب API، محققان قادر به انجام ممیزی های خود نیستند، که می تواند جزئیات جدیدی در مورد نحوه عملکرد الگوریتم ارائه دهد. او در تحلیل خود نوشت: «بنابراین همزمان توییتر در حال انتشار این کد است، بررسی این کد را برای تحقیقات بسیار دشوار کرده است.

الکس هانا، مدیر تحقیقات مؤسسه تحقیقاتی هوش مصنوعی توزیع شده (DAIR) نیز در سال گذشته، مدت کوتاهی پس از اینکه ماسک برای اولین بار در مورد طرح هایی برای الگوریتم «متن باز» توییتر صحبت کرد، اهمیت ممیزی را مطرح کرد. مانند مسینگ، او شک داشت که انتشار کد در GitHub به طور معناداری باعث افزایش شفافیت در نحوه عملکرد توییتر شود.

هانا گفت: «اگر واقعاً به نظارت عمومی روی چیزی مانند الگوریتم توییتر علاقه دارید، در واقع به روش‌های متعددی برای نظارت نیاز دارید.

یک جنبه از الگوریتم توییتر وجود دارد که کد GitHub نور جدیدی را بر آن می افکند. مسینگ به فایلی اشاره می کند که توسط دانشمند داده جف آلن کشف شده است، که نوعی «فرمول» را نشان می دهد که چگونه انواع مختلف تعامل توسط الگوریتم اولویت دارند. مسینگ می نویسد: «اگر آن را به صورت اسمی در نظر بگیریم، یک فایو (لایک توییتر) به اندازه نصف بازتوییت ارزش دارد. “یک پاسخ 27 ریتوییت ارزش دارد و یک پاسخ با پاسخ نویسنده یک توییت ارزش 75 ریتوییت عظیم دارد.”

اگرچه این تا حدودی آشکار کننده است، اما یک بار دیگر، تصویری ناقص از آنچه واقعاً اتفاق می افتد است. مسینگ می‌گوید: «بدون داده‌های واقعی به این معنا نیست. و ماسک داده‌ها را برای دانشگاهیان بسیار گران کرده است. اگر آنها می خواهند در حال حاضر این را مطالعه کنند، اساساً شما باید یک کمک مالی عظیم – نیم میلیون دلار در سال – دریافت کنید تا مقدار قابل توجهی از داده ها را برای مطالعه آنچه اتفاق می افتد به دست آورید.

اشتراک گذاری