براساس تجزیه و تحلیل اخیر، BeInCrypto در مجموعه داده ای برای آموزش و بهبود ابزارهای هوش مصنوعی (AI) مانند ChatGPT گنجانده شده است.
BeInCrypto در مجموعه داده عظیمی برای آموزش هوش مصنوعی به نام C4 گنجانده شده است. واشنگتن پست و موسسه آلن برای هوش مصنوعی اخیراً مجموعه داده های C4 گوگل را مورد مطالعه قرار دادند تا مشخص کنند چه سایت هایی به ابزارهای هوش مصنوعی تغذیه می کنند.
بسیاری از مدل های زبان بزرگ از C4 (که مخفف Colossal Clean Crawled Corpus است) به عنوان یک ابزار آموزشی استفاده کرده اند. با این حال، ChatGPT Open AI از این مجموعه داده استفاده نمی کند.
کمک به AI در تکرار گفتار انسان
مدلهای زبان بزرگی مانند C4 و مدلهایی که ChatGPT به کار میبرد، اینترنت را برای گنجاندن محتوا در مدل خود «خراش» میکنند. گستردگی مجموعه داده به هوش مصنوعی اجازه می دهد تا گفتار انسان را تقلید کند.
واشنگتن پست مرتب شده است وب سایت های C4 با استفاده از داده های شرکت تجزیه و تحلیل وب، Similarweb. سپس، آنها 10 میلیون وبسایت برتر را بر اساس تعداد «توکنهایی» که ارائه کردند، رتبهبندی کردند.
توکنها به تکههای کوتاهی از متن اشاره میکنند که برای معنی دادن به دادههای بدون ساختار استفاده میشوند، که معمولاً از یک کلمه یا یک عبارت تشکیل شدهاند.
سه شرکت کننده بزرگ در مجموعه داده عبارتند از patents.google.com، wikipedia.org و scribd.com، یک کتابخانه دیجیتال مبتنی بر اشتراک. و سازمانهای خبری بر ردههای برتر تسلط داشتند و گاردین، نیویورک تایمز، فوربس، لسآنجلس تایمز و هافینگتون پست در بین 10 نفر برتر قرار گرفتند.
داده های C4 برای اولین بار در سال 2019 خراشیده شد
وبسایتهای دیگری که بهشدت از آن بهره میبرند عبارتند از Instructables، یک پلتفرم آنلاین برای به اشتراکگذاری دستورالعملها و دستورالعملهای DIY. و محققان همچنین حداقل 27 سایت دیگر را شناسایی کردند توسط دولت آمریکا به عنوان بازار دزدی دریایی و تقلبی.
C4 زندگی خود را به عنوان یک خراش تنها توسط غیر انتفاعی آغاز کرد CommonCrawl در سال 2019. آنها به واشنگتن پست گفتند که سعی نمی کند از مطالب دارای مجوز یا دارای حق چاپ اجتناب کند. با این حال، سعی می کند وب سایت هایی با کیفیت بالا و قابل اعتماد را که در آن داده ها برای استفاده و تجزیه و تحلیل رایگان است، در اولویت قرار دهد.
از آنجایی که فناوری هوش مصنوعی همچنان صنایع مختلف را تهدید می کند، خراش دادن محتوا برای مدل های زبان بزرگ به طور فزاینده ای بحث برانگیز شده است، به ویژه در بخش هایی که بیشتر در معرض خطر هوش مصنوعی هستند.
شرکت های آموزش هوش مصنوعی به سازندگان محتوا برای استفاده از کارشان خسارتی نمی دهند. علاوه بر این، هنرمندان اخیراً ابزارهای تصویری هوش مصنوعی Midjourney و Stable Diffusion را با شکایت حق نسخهبرداری مورد بررسی قرار دادهاند. و شکایت ادعا می کند که ابزارهای هنری مولد هوش مصنوعی با خراش دادن آثار هنرمندان بدون رضایت آنها، قانون حق چاپ را نقض می کنند.
پست BeInCrypto در میان وبسایتهایی که به هوش مصنوعی مانند ChatGPT کمک کرد تا جذابیت فکری را افزایش دهد، اولین بار در BeInCrypto ظاهر شد.