Büyük Dil Modellerinin Eğitim Dileması: Meta Korsan Veri Seti Kullanmakla Suçlanıyor
Yapay zekanın yükselişiyle birlikte, büyük dil modelleri (LLM’ler) doğal dil görevlerinde devrim yaratıyor. Ancak, bu modellerin eğitiminde kullanılan veri setlerinin kaynağı tartışmalara yol açıyor.
Facebook’un ana şirketi Meta, CEO Mark Zuckerberg’in korsan kitaplar ve makaleler içeren bir veri setini LLM ekibinin kullanmasına izin verdiği iddiasıyla karşı karşıya. Kadrey v. Meta davasına göre, Zuckerberg, LibGen adlı veri setini “Llama” adlı LLM’yi eğitmek için onaylamış.
LibGen, telif hakkıyla korunan eserleri paylaşan bir platform ve birçok kez dava edildi. Davacılar, Meta çalışanlarının LibGen’in yasa dışı olduğunu bildiğini iddia ediyor.
Meta, ABD’nin “adil kullanım” ilkesine dayanarak kendini savunuyor. Bu ilke, telif hakkıyla korunan eserleri yeni ve dönüştürücü içerik oluşturmak için izinsiz kullanımına olanak tanıyor.
Ancak Meta’nın iç yazışmaları, şirketin veri setini kullanmak için Zuckerberg’den onay aldığını ortaya koyuyor. Ayrıca, Meta’nın telif hakkı bilgilerini kaldırmak için bir komut dosyası yazdığı iddia ediliyor.
Meta’nın LibGen’den torrent yoluyla dosya indirerek başka bir telif hakkı ihlaline karıştığı da iddia ediliyor.
Techcrunch’a göre, dava Meta’nın eski LLM’leriyle ilgili olmasına rağmen, fair use savunması成功すれば、Meta lehine sonuçlanabilir. Ancak yargıç, Meta’nın dava dosyasının büyük bir kısmını sansürleme talebini reddetti ve davacıların iddialarının kamuoyuna açıklanmasına yol açtı.
Meta’nın AI Modeli Llama
Llama, Meta tarafından geliştirilen bir LLM’dir. Geniş bir dil verisi seti üzerinde eğitilmiş olan Llama, doğal dil işleme görevlerinde yüksek performans sergiliyor. Metin üretimi, çeviri ve özetleme gibi uygulamalarda kullanılabilir.