Apple Menjelaskan cara kerja ‘Hey Siri’ di Death

Apple menerbitkan entri baru yang menarik di Journal of Machine Learning bulan ini menjelaskan secara rinci cara kerja detektor ‘Hey Siri’ yang diaktifkan suara.

Apple jelaskan bahwa iPhone dan Apple Watch mikrofon “mengubah suara Anda menjadi aliran sampel bentuk gelombang seketika, pada 16000 per detik” sebelum detektor di perangkat memutuskan apakah Anda bermaksud memanggil Siri dengan suara Anda:

Tahap analisis spektrum mengubah aliran sampel bentuk gelombang menjadi urutan bingkai, yang masing-masing menggambarkan spektrum audio dalam waktu kira-kira 0,001 detik. Sekitar dua puluh frame ini sekaligus (0,2 detik audio) diumpankan ke model audio, Deep Neural Network (DNN) mengubah masing-masing model audio ini menjadi distribusi probabilitas melalui sekumpulan kelas Suara suara: lapisan yang digunakan dalam frase “Hey Siri”, ditambah keheningan dan ucapan lainnya, total sekitar 20 lapisan suara.

Apple ada juga ambang variabel untuk memutuskan apakah Anda mencoba memanggil Siri:

Kami telah membangun beberapa fleksibilitas untuk mempermudah pengaktifan Siri dalam kondisi sulit tanpa secara dramatis meningkatkan jumlah aktivasi palsu. Memiliki ambang primer atau normal dan ambang batas yang lebih rendah biasanya tidak memicu Siri. Jika skor melebihi ambang batas bawah tetapi bukan ambang batas atas, kami mungkin melewatkan acara “Hey Siri” yang sebenarnya. Ketika skor berada di kisaran ini, sistem akan masuk ke keadaan yang lebih sensitif selama beberapa detik, jadi jika pengguna mengulangi frasa, bahkan tanpa berusaha lebih keras, Siri akan aktif. Mekanisme kesempatan kedua ini sangat meningkatkan kegunaan sistem, tanpa meningkatkan tingkat alarm palsu terlalu banyak karena hanya dalam keadaan sangat sensitif ini untuk waktu yang singkat.

Seperti yang kita semua tahu, ‘Hey Siri’ mengandalkan coprocessor di iPhone untuk mendengar kata pemicu tanpa memerlukan interaksi fisik atau menguras baterai dan Apple Watch memperlakukan ‘Hey Siri’ secara berbeda karena layar harus menyala. Apple menjelaskan bahwa ‘Hey Siri’ hanya menggunakan sekitar 5% dari anggaran yang dihitung menggunakan metode ini.

Detektor “Hey Siri” hanya bekerja saat koprosesor gerakan arloji mendeteksi kenaikan pergelangan tangan, yang menyalakan layar. Pada saat itu, WatchOS memiliki banyak pekerjaan yang harus dilakukan — pemanasan, menyiapkan layar, dll. — sehingga sistem mengalokasikan “Hey Siri” hanya sebagian kecil (~ 5%) dari batas anggaran PC yang layak. Merupakan tantangan untuk mulai menangkap audio tepat pada waktunya untuk memulai frasa pemicu, jadi kami memungkinkan pemotongan cara kami menginisialisasi detektor.

Akhirnya kenapa Apple pilih frasa ‘Hey Siri’ sebagai pemicu?

Sebelum fitur Hey Siri, sebagian kecil pengguna akan mengatakan “Hey Siri” saat memulai permintaan, setelah memulainya dengan menekan sebuah tombol. Kami menggunakan cara mengucapkan “Hai Siri” ini untuk set pelatihan awal untuk model detektor bahasa Inggris AS. Kami juga menyertakan contoh pidato umum, seperti yang digunakan untuk melatih pengenalan suara utama. Dalam kedua kasus, kami menggunakan transkripsi otomatis untuk frasa pelatihan. Anggota tim Siri menguji keakuratan subset rekaman.

Kami telah membuat spesifikasi fonetik khusus bahasa dari frasa “Hey Siri”. Dalam bahasa Inggris Amerika, kami memiliki dua variasi, dengan vokal awal yang berbeda dalam “Siri”—satu menjadi “serius” dan yang lainnya dalam “Suriah.”

Entri lengkap terbaca dengan rapi, terutama jika Anda tertarik dengan pengenalan suara atau menggunakan ‘Hey Siri’ di iPhone atau Apple Watch.

Sumber: 9to5mac

Pos terkait

Back to top button