Дуу авиаг хэрхэн зураг болгон хувиргадаг вэ? MFCC-ийн ард нуугдсан технологи

Г.Хишигжаргал
Багш

Г.Хишигжаргал
Багш
Бид өдөр бүр дуут мессеж илгээж, дуу хоолойгоороо хайлт хийж, хиймэл оюунтай ярилцдаг. Хүн бол хэдхэн секунд сонсоод л найзынхаа хоолойг таньж чадна. Харин компьютер бидэн шиг сонсдоггүй. Компьютерийн хувьд дуу хоолой гэдэг нь зөвхөн маш олон тооноос бүрдсэн долгион юм. Тэгвэл хиймэл оюун эдгээр тоонуудыг хэрхэн ойлгож, хүний яриаг таньдаг юм бол? Үүний ард MFCC гэх чухал технологи ажиллаж байдаг.
MFCC буюу Mel-Frequency Cepstral Coefficients нь аудио өгөгдлөөс хамгийн чухал шинж чанаруудыг ялган авч, компьютерт ойлгомжтой хэлбэрт хөрвүүлдэг арга юм. Энгийнээр хэлбэл, урт бөгөөд төвөгтэй дуу авиаг илүү цэгцтэй, жижиг мэдээллийн багц болгон хувиргадаг гэсэн үг. Энэ нь компьютерт бүх дууг нэг бүрчлэн боловсруулахын оронд хамгийн хэрэгтэй хэсгийг нь үлдээх боломж олгодог. Яг л урт номын гол санааг товчлон тэмдэглэж авч байгаатай адил юм.
Хүн дууг чихээрээ сонсдог бол компьютер тоон өгөгдөл хэлбэрээр хүлээн авдаг. Жишээлбэл, 5 секундын аудио хэдэн арван мянган жижиг тоон утгаас бүрдэж болно. Гэхдээ энэ хэмжээний мэдээллийг шууд боловсруулна гэдэг маш хэцүү. Тиймээс эхлээд дууг маш богино хэсгүүдэд хуваадаг. Ихэвчлэн 20-40 миллисекунд үргэлжлэх жижиг хэсгүүд болгон задлаад тус бүрийг нь тусад нь шинжилдэг.
Энэ үйл явц хэд хэдэн алхамтай. Эхлээд аудиог жижиг хэсгүүдэд хувааж, дараа нь тухайн хэсэг бүрийн давтамжийг тооцоолдог. Үүний дараа хүний сонсголд ойр байдлаар Mel scale ашиглан мэдээллийг дахин боловсруулна. Эцэст нь хамгийн чухал шинжүүдийг ялгаж авснаар хоёр хэмжээст хүснэгт шиг бүтэц үүсдэг. Нэг тэнхлэг нь хугацаа, нөгөө нь дууны онцлог шинжүүдийг илэрхийлдэг бөгөөд энэ нь жижиг зураг эсвэл дулааны зураг (heatmap) шиг харагддаг.
Хиймэл оюун зураг боловсруулахдаа маш сайн байдаг. Харин түүхий аудио өгөгдөл нь хэт урт, төвөгтэй байдаг тул боловсруулахад хүндрэлтэй. MFCC нь энэ асуудлыг шийдэж, аудиог илүү цэгцтэй бүтэцтэй болгодог. Ингэснээр машин сургалтын загварууд дуу хоолойн хэв маягийг илүү хурдан сурч чаддаг. Ялангуяа Deep Learning загварууд ийм төрлийн дүрслэл дээр маш сайн ажилладаг.
Компьютер хүн шиг сонсож чаддаггүй ч дуу авиаг өөрийн ойлгодог хэл рүү хөрвүүлж чаддаг. MFCC нь энэ хөрвүүлэлтийг хийх хамгийн өргөн хэрэглэгддэг аргуудын нэг юм. Энэ технологи аудиог энгийн тоон дарааллаас илүү ойлгомжтой хоёр хэмжээст дүрслэл болгон хувиргадаг. Өөрөөр хэлбэл, MFCC нь хиймэл оюунд дуу хоолойг “сонсох” биш, харин “харах” боломжийг олгодог технологи юм.