
Voice Recognition

Н.Чигцалмаа
Багш


Н.Чигцалмаа
Багш
Өнөө үед voice recognition нь мэдээллийн аюулгүй байдал, ухаалаг төхөөрөмж, банк санхүүгийн үйлчилгээ зэрэг олон салбарт өргөн хэрэглэгдэж, уламжлалт нууц үг, карт зэрэг баталгаажуулалтын аргуудыг орлох шинэ шийдэл болж байна.
Voice recognition процесс нь хүний дуу хоолойн физик дохиог биометрийн таних мэдээлэл болгон хувиргах нарийн төвөгтэй алгоритмын дараалал бөгөөд дараах үндсэн үе шатуудаас бүрдэнэ.

Хүний дуу хоолой нь агаараар дамжих физик долгион буюу аналог дохио юм. Компьютер энэ дохиог шууд боловсруулах боломжгүй тул микрофоноор хүлээн авч, дижитал хэлбэрт хөрвүүлдэг.
Хувиргах процесс:
Дууны долгионыг богино хугацааны интервалуудад (frame) хуваан, давтамжийн шинжилгээ хийж, спектр шинжилгээ хийж, мэдээллийг олж авна.
Үр дүн:
Энэхүү шатанд дууны сигналаас хүний хоолойн онцлогийг илэрхийлэх математик векторууд буюу “дууны шинжүүд” (voice features) үүсдэг.
Энэ шатанд ялган авсан шинжүүдийг ашиглан тухайн хүний дуу хоолойн онцлогийг загварчилдаг.
Хувиргах процесс:
Систем өмнө нь сургасан өгөгдөлтэй харьцуулан тухайн дууны онцлогийг анализ хийж, хэрэглэгч бүрийн дууны хэв маягийг тодорхойлно.
Үр дүн:
Хэрэглэгч бүрт онцгой биометрийн “дууны загвар” (voiceprint) үүсдэг бөгөөд энэ нь тухайн хүнийг бусдаас ялгах үндсэн суурь болдог.
Эцсийн шатанд шинэ оролтын дууг өмнө хадгалсан загвартай харьцуулж, тухайн яригчийн хэн болохыг тодорхойлдог.
Хувиргах процесс:
Оролтын дууны шинжүүдийг өгөгдлийн санд хадгалагдсан дууны загвар (voiceprint)-уудтай харьцуулж, ижил төстэй байдлын хэмжээг тооцоолно.
Үр дүн:
Систем тухайн хүнийг таних (identification) эсвэл баталгаажуулах (verification) шийдвэр гаргана.
Сүүлийн жилүүдэд voice recognition технологи нь deep learning болон artificial neural networks-ийн хөгжлийн үр дүнд эрс сайжирч байна. Орчин үеийн системүүд нь хүний дуу хоолойн нарийн төвөгтэй хэв маягийг автоматаар суралцаж, уламжлалт аргуудтай харьцуулахад илүү өндөр нарийвчлалтай ажиллах болсон.

Voice recognition технологи нь дараах салбарт өргөн хэрэглэгдэж байна.
Аюулгүй байдал: Дуу хоолойгоор нэвтрэх, баталгаажуулалт
Ухаалаг төхөөрөмж: Siri, Google Assistant
Банк санхүү: Voice authentication систем
Хүртээмж: Тусгай хэрэгцээт иргэдэд туслах технологи
Тээвэр: Voice command ашиглах систем
Дуу хоолой таних технологи нь хүний дууны биометрийн онцлогт суурилсан, аюулгүй байдал болон хэрэглэгчийн туршлагыг сайжруулахад чухал үүрэгтэй дэвшилтэт технологи юм. Хиймэл оюун ухааны хөгжлийн нөлөөгөөр энэхүү технологийн нарийвчлал, хэрэглээний хүрээ улам бүр өргөжиж байгаа бөгөөд ирээдүйд илүү ухаалаг, бодит цагийн, олон хэл дэмждэг системүүд болон хөгжих хандлагатай байна