Gadījuma izpēte: sarunvalodas AI
Vairāk nekā 3 8 stundu datu apkopoti, segmentēti un pārrakstīti, lai izveidotu ASR XNUMX indiešu valodās
Valdības mērķis ir nodrošināt saviem pilsoņiem ērtu piekļuvi internetam un digitālajiem pakalpojumiem viņu dzimtajā valodā, izmantojot Bhashini projektu.
BHASHINI, Indijas mākslīgā intelekta virzīta valodu tulkošanas platforma, ir būtiska Digital India iniciatīvas daļa.
Bhashini platforma, kas izstrādāta, lai nodrošinātu mākslīgā intelekta (AI) un dabiskās valodas apstrādes (NLP) rīkus MVU, jaunuzņēmumiem un neatkarīgiem novatoriem, kalpo kā publisks resurss. Tās mērķis ir veicināt digitālo iekļaušanu, ļaujot Indijas pilsoņiem mijiedarboties ar valsts digitālajām iniciatīvām savā dzimtajā valodā.
Turklāt tā mērķis ir ievērojami paplašināt interneta satura pieejamību Indijas valodās. Tas ir īpaši vērsts uz tādām sabiedrības interešu jomām kā pārvaldība un politika, zinātne un tehnoloģija utt. Līdz ar to tas mudinās iedzīvotājus izmantot internetu savā valodā, veicinot viņu aktīvu līdzdalību.
Reālās pasaules risinājums
Lokalizācijas spēka atraisīšana ar datiem
Indijai bija nepieciešama platforma, kas koncentrētos uz daudzvalodu datu kopu un uz mākslīgo intelektu balstītu valodu tehnoloģiju risinājumu izveidi, lai sniegtu digitālos pakalpojumus indiešu valodās. Lai uzsāktu šo iniciatīvu, Indijas Tehnoloģiju institūts Madrasā (IIT Madras) sadarbojās ar Shaip, lai apkopotu, segmentētu un transkribētu indiešu valodas datu kopas daudzvalodu runas modeļu veidošanai.
Izaicinājumi
Lai palīdzētu klientam izstrādāt runas tehnoloģiju runas ceļvedi indiešu valodām, komandai bija jāiegūst, segmentē un jāpārraksta liels apmācības datu apjoms, lai izveidotu AI modeli. Klienta kritiskās prasības bija:
Datu vākšana
- Iegūstiet 3000 stundu apmācību datus 8 indiešu valodās ar 4 dialektiem katrā valodā.
- Katrai valodai piegādātājs apkopos Extempore Speech un
Sarunu runa no vecuma grupām no 18 līdz 60 gadiem - Nodrošiniet daudzveidīgu runātāju kombināciju pēc vecuma, dzimuma, izglītības un dialektiem
- Nodrošiniet daudzveidīgu ierakstīšanas vidi kombināciju atbilstoši specifikācijām.
- Katrs audio ieraksts ir vismaz 16 kHz, bet vēlams 44 kHz
Datu segmentēšana
- Izveidojiet 15 sekunžu runas segmentus un ierakstiet audio laika zīmogu milisekundēs katram konkrētajam runātājam, skaņas veidam (runa, vāvuļošana, mūzika, troksnis), pagriezieniem, izteikumiem un frāzēm sarunā.
- Izveidojiet katru segmentu tā mērķa skaņas signālam ar 200–400 milisekundes polsterējumu sākumā un beigās.
- Visiem segmentiem ir jāaizpilda šādi objekti, piemēram, sākuma laiks, beigu laiks, segmenta ID, skaļuma līmenis, skaņas veids, valodas kods, skaļruņa ID utt.
Datu transkripcija
- Ievērojiet detalizētas transkripcijas vadlīnijas par rakstzīmēm un īpašiem simboliem, pareizrakstību un gramatiku, lielo burtu lietojumu, saīsinājumiem, kontrakcijām, atsevišķiem runātajiem burtiem, cipariem, pieturzīmēm, akronīmiem, nesaprašanās, runas, nesaprotamās runas, nemērķa valodām, nerunas utt.
Kvalitātes pārbaude un atsauksmes
- Visiem ierakstiem ir jāveic kvalitātes novērtējums un apstiprināšana, tikai apstiprināta runa
Šķīdums
Pateicoties mūsu padziļinātajai izpratnei par sarunvalodas mākslīgo intelektu, mēs palīdzējām klientam apkopot, segmentēt un transkribēt datus kopā ar ekspertu vācēju, lingvistu un anotētāju komandu, lai izveidotu lielu audio datu kopu 8 Indijas valodās.
Šaipa darba apjoms ietvēra, bet neaprobežojās ar liela apjoma audio apmācības datu iegūšanu, audio ierakstu segmentēšanu vairākos elementos, datu transkribēšanu un atbilstošu JSON failu, kas satur metadatus [runātāja ID, vecums, dzimums, valoda, dialekts, dzimtā valoda, kvalifikācija, nodarbošanās, joma, faila formāts, frekvence, kanāls, audio veids, runātāju skaits, svešvalodu skaits, izmantotā iestatīšana, šaurjoslas vai platjoslas audio utt.], piegādi.
Šaips savāca 3000 stundu audio datu, vienlaikus saglabājot vēlamo kvalitātes līmeni, kas nepieciešams, lai apmācītu runas tehnoloģiju sarežģītiem projektiem. No katra dalībnieka tika paņemta skaidras piekrišanas veidlapa.
1. Datu vākšana
2. Datu segmentēšana
- Apkopotie audio dati tika tālāk sadalīti 15 sekunžu garos runas segmentos un katram runātājam, skaņas veidam, pagriezieniem, izteikumiem un frāzēm sarunā pievienots laika zīmogs milisekundēs.
- Izveidoja katru segmentu tā mērķētajam skaņas signālam ar 200–400 milisekundes polsterējumu skaņas signāla sākumā un beigās.
- Visiem segmentiem bija pieejami un aizpildīti šādi objekti, piemēram, sākuma laiks, beigu laiks, segmenta ID, skaļuma līmenis (skaļš, parasts, kluss), primārais skaņas veids (runa, pļāpāšana, mūzika, troksnis, pārklāšanās), valodas koda skaļrunis. ID, transkripcija utt.
3. Kvalitātes pārbaude un atsauksmes
- Visi ieraksti tika novērtēti pēc kvalitātes, un tika piegādāti tikai apstiprināti runas ieraksti ar WER 90% un TER 90%
- Sekoja kvalitātes kontrolsaraksts:
» Maksimālais segmenta garums 15 sekundes
» Transkripcija no konkrētiem domēniem, proti: laikapstākļi, dažāda veida ziņas, veselība, lauksaimniecība, izglītība, darbs vai finanses
» Zems fona troksnis
» Nav audio klipa izslēgts — nav kropļojumu
» Pareiza audio segmentācija transkripcijai
4. Datu transkripcija
Visi izrunātie vārdi, tostarp vilcināšanās, papildvārdi, nepatiesi sākumi un citi verbālie tiki, transkripcijā tika tverti precīzi. Mēs arī ievērojām detalizētas transkripcijas vadlīnijas par lielajiem un mazajiem burtiem, pareizrakstību, lielo burtu lietojumu, saīsinājumiem, kontrakcijas, cipariem,
pieturzīmes, akronīmi, neskaidra runa, ar runu nesaistīti trokšņi utt. Turklāt apkopošanai un transkripcijai sekoja šāda darba plūsma:
Iznākums
Augstas kvalitātes audio dati no ekspertu lingvistiem ļaus Indijas Tehnoloģiju institūtam Madrasā noteiktajā laikā precīzi apmācīt un izveidot daudzvalodu runas atpazīšanas modeļus 8 Indijas valodās ar dažādiem dialektiem. Runas atpazīšanas modeļus var izmantot, lai:
- Pārvariet valodas barjeru digitālajai iekļaušanai, iesaistot iedzīvotājus iniciatīvās viņu dzimtajā valodā.
- Veicina digitālo pārvaldību
- Katalizators, lai izveidotu pakalpojumu un produktu ekosistēmu indiešu valodās
- Lokalizētāks digitālais saturs sabiedrības interešu jomās, jo īpaši pārvaldība un politika
Mēs bijām pārsteigti par Šaipa zināšanām sarunvalodas AI telpā. Viņu vispārējās projektu izpildes kompetences, kas saistītas ar nepieciešamo apmācību datu ieguvi, segmentēšanu, pārrakstīšanu un piegādi no ekspertiem lingvistiem 8 valodās, ievērojot stingrus termiņus un vadlīnijas; vienlaikus saglabājot pieņemamo kvalitātes standartu.