Google Tests Sign Language Detector Datang Switch ‘Speaker aktif’ dalam panggilan video

google menguji detektor bahasa isyarat untuk panggilan video

Sebagian besar dari kita tinggal di dalam rumah dan mengoordinasikan pekerjaan melalui panggilan video karena pandemi COVID-19, Anda mungkin akrab dengan banyak jenis perangkat lunak konferensi video. Salah satu fitur hebat dari aplikasi panggilan video ini adalah secara otomatis beralih di antara umpan video dari orang yang berbicara secara real time. Namun, ini tidak bekerja dengan pengguna bahasa isyarat dan mereka mungkin merasa tersisih dari percakapan.

Peneliti Google memutuskan untuk memperbaiki masalah aksesibilitas ini dengan membangun mesin pendeteksi bahasa isyarat waktu nyata. Itu dapat mendeteksi ketika seseorang dalam panggilan video mencoba berkomunikasi dalam bahasa isyarat dan mendapatkan perhatian mereka. Alat ini akan dapat mengetahui kapan seseorang mulai masuk dan mengubahnya menjadi pembicara aktif.

Model ini dipresentasikan oleh peneliti Google di ECCV 2020. Makalah penelitian berjudul Real-time Sign Language Detection Using Speech Posture Estimator tentang bagaimana mesin pendeteksi ‘plug and play’ dibuat untuk aplikasi konferensi video. Efisiensi dan latensi umpan video merupakan aspek penting, dan model baru dapat menangani keduanya dengan sangat baik. Maksud saya, apa gunanya umpan video yang tertunda dan terputus?

Berikut sekilas apa yang dilihat mesin bahasa isyarat secara real time:

Google Tests Sign Language Detector Datang Switch 'Speaker aktif' dalam panggilan video 2

Sekarang, jika Anda bertanya-tanya bagaimana alat pendeteksi bahasa isyarat ini bekerja, Google telah menjelaskan semua detailnya. Pertama, video melewati PoseNet, yang memperkirakan titik-titik penting tubuh seperti mata, hidung, bahu, dll. Ini membantu mesin membuat sosok manusia dan kemudian membandingkan gerakannya dengan model yang dilatih menggunakan korpus Bahasa Isyarat Jerman.

Ini adalah bagaimana peneliti mengetahui bahwa orang tersebut telah memulai atau berhenti menandatangani. Tapi, bagaimana mereka diberi peran sebagai pembicara aktif ketika pada dasarnya tidak ada suara? Itu adalah salah satu kendala terbesar dan Google mengatasinya dengan membangun demo web mentransmisikan sinyal audio frekuensi tinggi 20kHz dengan aplikasi konferensi video yang Anda sambungkan. Ini akan mengelabui aplikasi konferensi video agar berpikir bahwa pengguna bahasa isyarat sedang berbicara dan dengan demikian mengubahnya menjadi pembicara aktif.

Peneliti Google berhasil mencapai akurasi 80% dalam memprediksi kapan seseorang mulai masuk. Ini dapat dengan mudah dioptimalkan hingga akurasi lebih dari 90%, yang luar biasa. Detektor tanda tangan ini saat ini hanya demo (dan makalah penelitian) tetapi tidak akan lama sampai kita melihat salah satu aplikasi konferensi video populer, baik itu Meet atau Zoom. , terapkan alat ini untuk membuat hidup lebih mudah bagi orang bodoh.

Pos terkait

Back to top button