השיר החדש של סינטרה
עמית שרגא
תמונה מwikipedia
בינה מלאכותית יוצרת מוזיקה חדשה על פי סגנונות קיימים, ובתוך כך עוזרת לנו להבין מהי מוזיקה
מוזיקה הייתה חלק מרכזי מהחוויה האנושית מאז שחר ההיסטוריה. "האמנות של המוזות", כמשמעות המילה ביוונית,היא משלבת בתוכה קצב, מנגינה והרמוניה (או גוון), וההאזנה לה היא חוויה נעימה בדרך כלל. אין פלא שבאנגלית נולד הביטוי "כמו מוזיקה לאוזניהם", שבא לבטא תחושה מחממת לב.
יצירת מוזיקה נחשבת לרוב כעיסוק השמור לבני אדם בלבד, אך לאחרונה הגיעו לתחום שחקנים חדשים: מודלים ממוחשבים. פיתוח חדש בשם Jukebox (תיבת נגינה), שנוצר במעבדות OpenAI, משתמש ברשת עצבית מלאכותית כדי ליצור מוזיקה הכוללת שירה בכמה סגנונות מוזיקליים. רשת עצבית מלאכותית היא תוכנה המבוססת על מודל מתמטי, ומאומנת לבצע משימות מורכבות הגובלות בבינה מלאכותית, למשל ניווט ברכב אוטונומי או אבחון רפואי.
פיתוח חדש משתמש ברשת עצבית מלאכותית כדי ליצור מוזיקה הכוללת שירה. אילוסטרציה של רשת מחשבים יוצרת מוזיקה | Andrzej Dudzinski, SPL
להתייחס למוזיקה כמכלול
בעבר פותחו מודלים שניסו להתמודד בנפרד עם חלקים שונים של המוזיקה: הקצב, המנגינה, ההרמוניה או השירה. כעת הפיתוח החדש משלב את השירה עם כלל מרכיבי המוזיקה. עקב השילוב הזה, טווח התדרים האפשרי של החומרים שמוזנים למודל הוא רחב מאוד, דבר שהופך את המודל למורכב במיוחד. לכן קשה מבחינה חישובית ללמד מחשב את הסמנטיקה או את המשמעות של כל הפרטים המרכיבים את השלם: המוזיקה.
פתרון אחד אפשרי ופשטני לצמצום המורכבות הזאת הוא להשתמש בטווח תדרים בדיד במקום בטווח תדרים רציף. אפשר לסנן תדרים מסוימים, או אף לוותר עליהם לגמרי, כך שנישאר רק עם התדרים העיקריים שנכללים במוזיקה. כך מפחיתים את הנטל החישובי ושומרים רק את התדרים החשובים ליצירת מוזיקה. פתרון כזה, שנוסה בעבר, הצליח ליצור קטעים קצרים ומוגבלים מבחינת סוגי כלי הנגינה ששולבו בו.
הפיתוח הקודם של הקבוצה, שכונה MuseNet, הצליח ליצור קטעי מוזיקה בקבצי מִידִי (MIDI), ללא שירה, ששילבו עד עשרה כלי נגינה ונמשכו עד ארבע דקות. התוכנה התאמנה על יצירות רבות ולמדה לבדה איך ליצור תבניות של הרמוניה, קצב וסגנון אומנותי. כעת, המודל החדש של Jukebox משתמש בכל טווח התדרים, ומצליח ליצור קטעים מוזיקליים ארוכים יותר.
המודל הוכשר באמצעות מאגר נתונים שכלל 1.2 מיליון שירים במגוון סגנונות - מוזיקה קלאסית, רוק, פופ, ג'אז ועוד. בנוסף הצליבו החוקרים את השירים עם מאגר של מילות השירים ונתוני רקע מהאתר LyricWiki, שכלל פרטים כמו הז'אנר, שם האמן, שנת ההוצאה ואפילו מצב הרוח המתאים לשיר.
תוצאה מעניינת של המודל היא פילוח המוזיקה לז'אנרים (סגמנטציה), על ידי אלגוריתם לצמצום ממדים בשם t-SNE. צמצום הממדים של המודל תורם לכך שהשיר שנוצר יהיה מדויק יותר ויתאים לז'אנר שלו. גם זמן החישוב מתקצר מכיוון שאפשר לכוון את המודל ליצור מלכתחילה שיר שיתאים לפילוח או לז'אנר המבוקש. התוכנה יצרה למעשה מעין עץ של קירבה בין סגנונות מוזיקה שונים, כך שאמנים שיוצרים מוזיקה דומה ימוקמו קרוב גם אם רשמית הם מזוהים עם סגנונות שונים. מומלץ להיכנס לקישור ולגלות קשרים קרובים מעניינים בין אמנים, למשל קולדפליי ודרייק או ג'ניפר לופז ודולי פרטון.
כדי להתאים את השירה למוזיקה המודל צריך להתגבר על שלל בעיות. יש למשל שירים שבוצעו בכמה גרסאות, כך שהמילים המקוריות לא בהכרח מתאימות עוד למוזיקה של הגרסה המחודשת. המודל נקט בפתרון כללי יחסית, שבו אורך השיר חולק במספר המילים, וכך כל אחת ממילות השיר קיבלה "חלון זמנים" משלה, המתאים למקומה הסידורי. השיטה הזאת אומנם התאימה לשירים רבים, אך לא לז'אנר ההיפ-הופ, שבו קצב השירה מהיר יותר. לכן השתמשו בשירי היפ-הופ בחלון זמנים רחב יותר, ובמודל מדויק יותר שחילץ את מיקום המילים מתוך השיר, אך במחיר של תוספת זמן חישוב יקר.
הפיתוח החדש משלב את השירה עם כלל מרכיבי המוזיקה. אילוסטרציה של מוזיקה נכנסת למוח | Shutterstock, fandijki