براساس تجزیه و تحلیل اخیر، BeInCrypto در مجموعه داده ای برای آموزش و بهبود ابزارهای هوش مصنوعی (AI) مانند ChatGPT گنجانده شده است.

BeInCrypto در مجموعه داده عظیمی برای آموزش هوش مصنوعی به نام C4 گنجانده شده است. واشنگتن پست و موسسه آلن برای هوش مصنوعی اخیراً مجموعه داده های C4 گوگل را مورد مطالعه قرار دادند تا مشخص کنند چه سایت هایی به ابزارهای هوش مصنوعی تغذیه می کنند.

بسیاری از مدل های زبان بزرگ از C4 (که مخفف Colossal Clean Crawled Corpus است) به عنوان یک ابزار آموزشی استفاده کرده اند. با این حال، ChatGPT Open AI از این مجموعه داده استفاده نمی کند.

کمک به AI در تکرار گفتار انسان

مدل‌های زبان بزرگی مانند C4 و مدل‌هایی که ChatGPT به کار می‌برد، اینترنت را برای گنجاندن محتوا در مدل خود «خراش» می‌کنند. گستردگی مجموعه داده به هوش مصنوعی اجازه می دهد تا گفتار انسان را تقلید کند.

واشنگتن پست مرتب شده است وب سایت های C4 با استفاده از داده های شرکت تجزیه و تحلیل وب، Similarweb. سپس، آنها 10 میلیون وب‌سایت برتر را بر اساس تعداد «توکن‌هایی» که ارائه کردند، رتبه‌بندی کردند.

توکن‌ها به تکه‌های کوتاهی از متن اشاره می‌کنند که برای معنی دادن به داده‌های بدون ساختار استفاده می‌شوند، که معمولاً از یک کلمه یا یک عبارت تشکیل شده‌اند.

وب سایت های طبقه بندی شده هوش مصنوعی منبع: واشنگتن پست

سه شرکت کننده بزرگ در مجموعه داده عبارتند از patents.google.com، wikipedia.org و scribd.com، یک کتابخانه دیجیتال مبتنی بر اشتراک. و سازمان‌های خبری بر رده‌های برتر تسلط داشتند و گاردین، نیویورک تایمز، فوربس، لس‌آنجلس تایمز و هافینگتون پست در بین 10 نفر برتر قرار گرفتند.

داده های C4 برای اولین بار در سال 2019 خراشیده شد

وب‌سایت‌های دیگری که به‌شدت از آن بهره می‌برند عبارتند از Instructables، یک پلتفرم آنلاین برای به اشتراک‌گذاری دستورالعمل‌ها و دستورالعمل‌های DIY. و محققان همچنین حداقل 27 سایت دیگر را شناسایی کردند توسط دولت آمریکا به عنوان بازار دزدی دریایی و تقلبی.

C4 زندگی خود را به عنوان یک خراش تنها توسط غیر انتفاعی آغاز کرد CommonCrawl در سال 2019. آنها به واشنگتن پست گفتند که سعی نمی کند از مطالب دارای مجوز یا دارای حق چاپ اجتناب کند. با این حال، سعی می کند وب سایت هایی با کیفیت بالا و قابل اعتماد را که در آن داده ها برای استفاده و تجزیه و تحلیل رایگان است، در اولویت قرار دهد.

از آنجایی که فناوری هوش مصنوعی همچنان صنایع مختلف را تهدید می کند، خراش دادن محتوا برای مدل های زبان بزرگ به طور فزاینده ای بحث برانگیز شده است، به ویژه در بخش هایی که بیشتر در معرض خطر هوش مصنوعی هستند.

شرکت های آموزش هوش مصنوعی به سازندگان محتوا برای استفاده از کارشان خسارتی نمی دهند. علاوه بر این، هنرمندان اخیراً ابزارهای تصویری هوش مصنوعی Midjourney و Stable Diffusion را با شکایت حق نسخه‌برداری مورد بررسی قرار داده‌اند. و شکایت ادعا می کند که ابزارهای هنری مولد هوش مصنوعی با خراش دادن آثار هنرمندان بدون رضایت آنها، قانون حق چاپ را نقض می کنند.

پست BeInCrypto در میان وب‌سایت‌هایی که به هوش مصنوعی مانند ChatGPT کمک کرد تا جذابیت فکری را افزایش دهد، اولین بار در BeInCrypto ظاهر شد.

در باره ی نویسنده

admin

یک پاسخ بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *