Şarkılar için DALL-E: Google-AI MusicLM, metin açıklamasına göre parçalar oluşturur

Draqon

Aktif Üye


  1. Şarkılar için DALL-E: Google-AI MusicLM, metin açıklamasına göre parçalar oluşturur

“Bozulmuş bir gitar riffiyle üst üste bindirilmiş yatıştırıcı bir keman melodisi.” Bu kadar kısa bir metin özelliği, kulağa “yüksek kaliteli” ve “orijinaline sadık” müzik parçaları üretmek için yeterli olmalıdır. Bu, Yapay Zeka (AI) MusicLM’ye bilimsel bir katkı yapan bir Google araştırma ekibini açıklıyor. Bu nedenle model, ses baytlarının sırasını hiyerarşik olarak sıralayarak müzik yaratma sürecini takip eder. Sonuç, sürekli olarak birkaç dakika boyunca daha uzun bir parça taşıyan 24 kHz’de diziler olmalıdır.


“Önemli ölçüde karmaşık” tutarlı müzik


MusicLM, bağımsız araştırmacıların henüz incelemediği baskı öncesi yayına göre diğerlerinin yanı sıra AudioLM üzerine kurulu. Yine Google araştırmacıları tarafından geliştirilen ve yalnızca sonbaharda sunulan selefi, kulağa doğal gelen sesler ve ses parçaları üretebilir. Buradaki ön koşul, sistemin az çok bestelediği birkaç saniyelik ses materyalini çalmaktır. Google uzmanlarına göre AudioLM, “herhangi bir ek açıklama olmadan”, konuşma veya piyano müziği olsun, saf ses dosyalarından gerçekçi ses materyali oluşturmayı öğreniyor.

Araştırmaya göre, halefi MusicLM, etiketlenmemiş müzikten oluşan geniş bir veri kümesi üzerinde eğitildiğinde, metinsel açıklamalara dayalı “önemli derecede karmaşık” tutarlı parçalar oluşturmayı öğreniyor. “Akılda kalıcı bir saksafon solosu ve bir solo şarkıcı ile büyüleyici bir caz şarkısı” veya “90’ların derin bas ve güçlü vuruşlu Berlin tekno” gibi girişler mümkündür. Sistem ayrıca daha ayrıntılı spesifikasyonları da uygulayabilir. Örneğin: “Basla birlikte reggaeton ritmi çalan hızlı bir davul setinin üzerinden derin bir erkek sesi rap yapıyor. Melodiyi bir tür gitar çalıyor. Bu kaydın ses kalitesi düşük. Arka planda kahkahalar var. Bu şarkı çalınabilir. bir barın içinde.”


Birleşik sesli metin verilerinin eksikliği


Yazarlar, yüksek kaliteli ve tutarlı ses sinyallerini sentezlemenin özellikle zor olduğuna dikkat çekiyor. İlgili yapay zeka çözümleri için bir başka engel, halihazırda birleştirilmiş sesli metin verilerinin olmamasıdır. Bu, DALL-E gibi yalnızca metin belirtimleri gerektiren görüntü oluşturucuların “kapsamlı veri setlerinin kullanılabilirliğinin olağanüstü kaliteye önemli ölçüde katkıda bulunduğu görüntü alanının tam tersidir”.

Yazarlar, genel ses verilerinin metin açıklamalarının oluşturulmasının da “görüntülerin açıklamasından çok daha zor” olduğunu açıklıyor. Bir tren istasyonundaki veya ormandaki gürültüler gibi akustik sahnelerin veya melodinin, ritmin, şarkının tınısının ve eşlik eden enstrümanların çok önemli olduğu müziğin en önemli özelliklerini yalnızca birkaç kelimeyle net bir şekilde yakalamak kolay değildir. Son olarak, ses, zamansal bir boyut boyunca yapılandırılmıştır, bu da sıralı altyazıları görüntülerden çok daha az anlamlı hale getirir.


Nihayetinde, tasarımcılarına ve programcılarına göre MusicLM, “AudioLM’nin çok seviyeli otoregresif modellemesini üretken bir bileşen olarak kullanır ve genişletir”. Ekip, açıklanan zorlukların üstesinden gelmek için entegre müzik-metin modeli MuLan’a güvendiğini söylüyor. Halihazırda melodileri ve ilişkili metinsel açıklamayı bir ses alanında birbirine yakın olan temsillere yansıtmak için eğitilmiştir. Bu yaklaşım, eğitim sırasında etiketlere olan ihtiyacı ortadan kaldırır ve algoritmaların büyük miktarda yalnızca ses dosyaları kullanılarak ayarlanmasına olanak tanır.

Mubert ve Riffusion: MusicLM önceki sistemlerden daha iyi performans gösteriyor


Araştırmacılara göre MusicLM’ye en yakın yaklaşım DALL-E 2. Bu görüntü oluşturucunun metni kodlamak için CLIP teknolojisini kullanmasına benzer şekilde, açıklanan gömülü model aynı amaç için kullanılıyor.

Yapımcılar sonuca ikna oldular: “Kantititatif ölçümlere ve insan değerlendirmelerine dayanan deneylerimiz, MusicLM’nin hem kalite hem de açıklamayı takip etme açısından Mubert ve Riffusion gibi önceki sistemleri geride bıraktığını gösteriyor.” Sistem, müzik üretimi için varsayılan olarak ıslık ve uğultu şeklinde ek bir melodiyi de kabul eder.

Sonuçlar, Riskler ve Endişeler


Ancak “TechCrunch” dergisinin dinleyicileri, Google tarafından yayınlanan ses örneklerine dayanarak MusicLM’nin mükemmel olmaktan çok uzak olduğunu söylüyor. Eğitim sürecinin kaçınılmaz bir yan etkisi gibi görünen “örneklerden bazıları çarpık bir kaliteye sahip”. Makine teknik olarak koro armonileri de dahil olmak üzere vokaller üretebilse de, bu sonuçlar arzulanan çok şey bırakıyor. “Şarkı sözlerinin” çoğu, “farklı sanatçıların karışımı gibi ses çıkaran sentetik seslerle söylenen” saf anlamsız sözlerdir.

Araştırmacılar, MusicLM’nin yapay zekanın yıllardır büyümekte olan sopayı salladığı araç yelpazesini genişlettiği sonucuna varıyor. “Yaratıcı müzik görevleri olan insanları” desteklemekle ilgili. Ancak model ve uygulama seçenekleri “bazı riskler” barındırıyor, ekibin dikkatinden kaçmadı. “Oluşturulan örnekler, eğitim verilerinde bulunan önyargıları yansıtacaktır” diye korkuyor. Bu, “kültürel ödenekle ilgili endişeleri” gündeme getiriyor.

Araştırmacılar ayrıca, şu anda metin ve görüntü oluşturucularla bağlantılı olarak daha yoğun bir şekilde tartışılan “yaratıcı içeriğin potansiyel olarak kötüye kullanılması” tehlikesinin de farkındalar. Yapılan bir analiz, MusicLM’nin “örneklerin yalnızca küçük bir bölümünü” ezbere öğrendiğini ve bu nedenle telif hakkı kreasyonlarını neredeyse keyfi bir şekilde başkalarından devraldığını gösterdi. Örneklerin yüzde 1’i için “anlık bir eşleşme tanımlanabilir”. Bununla birlikte, kalan telif hakkı ihlalleri de göz önüne alındığında, şu anda modeli yayınlama planları yoktur. Bununla birlikte, değerlendirme verilerinin eksikliğini gidermek için ekip, “deneyimli müzisyenler tarafından yapılmış” bir dizi açıklamalı parça yayınlamak için MusicCaps’i kullanıyor.


(bme)



Haberin Sonu