speech recognition

Rasimah Abuhari

speech recognition

KECERDASAN BUATAN GROUP4 SPEECH RECOGNITION DISUSUN OLEH : Rasimah Binti Abuhari NurJannah Muhammad Azhar Hairuddin JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI ALAUDDIN MAKASSAR 2014 KATA PENGANTAR Puji syukur kami panjatkan kehadirat Allah SWT. karena rahmat serta hidayah-Nyalah sehingga kami dapat menyusun makalah yang berjudul “Speech Recognition”. Makalah ini kami buat dengan tujuan menjelaskan secara sederhana tentang Speech recognition khususnya bagi mahasiswa – mahasiswa yang bergelut di dunia kecerdasan buatan. Makalah ini juga membantu untuk lebih jauh mengetahui tentang speech recognition. Kami juga tak lupa mengucapkan terima kasih kepada segenap pihak yang telah banyak membantu, mendorong dan membina kami sehingga dapat menyelesaikan makalah ini. Seperti pepatah yang mengatakan bahwa “tak ada gading yang tak retak“ seperti pula makalah ini tentu banyak kekurangan dan kesalahan. Karena itu para pembaca khususnya Dosen mata kuliah ini, dimohon kritik dan saran yang bersifat membangun untuk penyempurnaan makalah kami yang selanjutnya. Samata-Gowa, 30 November 2014 Penyusun DAFTAR ISI HALAMAN JUDUL i KATA PENGANTAR ii DAFTAR ISI iii BAB I PENDAHULUAN 1 A. Latar Belakang 1 B. Rumusan Masalah 2 C. Manfaat Pembahasan 3 BAB II PEMBAHASAN 5 A. Pengertian Speech Recognition 5 B. Sejarah Speech Recognition 6 C. Skema Utama dan Algoritma Speech Recognition 7 D. Implementasi Speech Recognition 11 BAB III PENUTUP 13 A. Kesimpulan 13 DAFTAR PUSTAKA 14 BAB I PENDAHULUAN A. Latar Belakang Hadirnya teknologi informasi berdampak pada perubahan dan menjadikan mudahnya melakukan pekerjaan-pekerjaan manusia dalam berbagai bidang, seperti : sektor bisnis, sektor pemerintahan dan sektor lainnya. Teknologi pada dasarnya dibuat dan dikembangkan sebagai alat utnuk membantu manusia, tetapi apakah semua manusia dapat merasakanya atau dapat menggunakan produk teknology yang selama ini dikembangkan. Sebagai manusia yang memiliki panca indera yang utuh dan sempurna mungkin tidak masalah dalam menggunakan produk teknologi. Lalu bagaimana dengan mereka yang tidak memiliki panca indera yang utuh ? oleh sebab itu dengan memanfaatkan teknologi speech recognition diharapkan dapat menyelesaikan permasalahan diatas dan lebih memudahkan manusia dalam melakukan pekerjaan manusia dalam berbagai bidang. B. C. Rumusan Masalah 1. Jelaskan apa itu Speech Recognition ! 2. Jelaskan Sejarah Speech Recognition ? 3. Bagaimana Skema Utama dan Algoritmanya ? 4. Bagaimana Implementasinya ? Manfaat Pembahasan 1. Untuk mengetahui Apa itu Speech Recogition. 2. Untuk mengetahui sejarah dari penemuan Speech Recognition. 3. Untuk mengetahui skema serta algoritma Speech Recognition. 4. Untuk mengetahui Implementasi dari Speech Recognition. BAB II PEMBAHASAN A. PENGERTIAN SPEECH RECOGNITION Speech Recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input suara). Speech Recognition juga merupakan sistem yang digunakan untuk mengenali perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk menggantikan peranan input dari keyboard dan mouse. Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan dalam penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi sebagai hasil akhir, untuk sebuah aplikasi seperti command & control, penginputan data, dan persiapan dokumen. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition. Pada makalah ini hanya akan dibahas mengenai speech recognition karena kompleksitas algoritma yang diimplementasikan lebih sederhana daripada speaker recognition. Algoritma yang akan diimplementasikan pada bahasan mengenai proses speech recognition ini adalah algoritma FFT (Fast Fourier Transform), yaitu algoritma yang cukup efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa upa masalah yang lebih kecil. Kemudian, setiap upa masalah diselesaikan dengan cara melakukan pencocokan pola digital suara. B. SEJARAH SPEECH RECOGNITION Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan untuk identifikasi dan verifikasi. Identifikasi ialah mengenali identitas subyek, dilakukan perbandingan kecocokan antara data biometric subyek dalam database berisi record karakter subyek. Sedangkan verifikasi adalah menentukan apakah subyek sesuai dengan apa yang dikatakan terhadap dirinya. Biometrik merupakan suatu metoda untuk mengenali manusia berdasarkan pada satu atau lebih ciri-ciri fisik atau tingkah laku yang unik. Biometric Recognition atau biasa disebut dengan Sistem pengenalan biometric mengacu pada identifikasi secara otomatis terhadap manusia berdasarkan psikological atau karakteristik tingkah laku manusia. Ada beberapa jenis teknologi biometric antara lain suara (speech recognition). Metode Hidden Markov Model mulai diperkenalkan dan dipelajari pada akhir tahun 1960, metode yang berupa model statistik dari rantai Markov ini semakin banyak dipakai pada tahun-tahun terakhir terutama dalam bidang speech recognition, seperti dijelaskan oleh Lawrence R. Rabiner dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition” Proses dalam dunia nyata secara umum menghasilkan observable output yang dapat dikarakterisasikan sebagai signal. Signal bisa bersifat diskrit (karakter dalam alfabet) maupun kontinu (pengukuran temperatur, alunan musik). Signal bisa bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah signal seperti : amplitudo, frekuensi, fase dari gelombang sinus. Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Hidden Markov. Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:  N, yaitu jumlah state dalam model. Secara umum state saling terhubung satu dengan yang lain, dan suatu state bisa mencapai semua state yang lain dan sebaliknya (disebut model ergodic). Namun hal tersebut tidak mutlak, terdapat kondisi lain dimana suatu state hanya bisa berputar ke diri sendiri dan berpindah ke satu state berikutnya, hal ini bergantung pada implementasi dari model.  State Transition Probability { } -> ij A a  Observation Symbol Probability pada state j, { } () -> j Bb k  Initial State Distribution -> i p p Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai generator untuk menghasilkan urutan observasi. dimana tiap observasi t o adalah salah satu simbol dari V, dan T adalah jumlah observasi dalam suatu sequence. C. SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION Terdapat 4 langkah utama dalam sistem pengenalan suara:  Penerimaan data input  Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.  Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.  Validasi identitas pengguna. Skema Speech Recogition Secara umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasit proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan template suara pada database sistem. Spektrum Suara Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :  Transformasi gelombang diskrit menjadi array data.  Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang(frekuensi). Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara. Ketika mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan. Namun, efek buruknya ialah array of array data yang terbentuk akan lebih banyak. Contoh Hasil konversi Sinyal Diskrit Dari tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan biner. Data biner tersebut yang nantinya akan dibandingkan dengan template data suara. Proses divide and conquer:  Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk menghitung jumlah elemen transformasi FFT.  Bagi dua data diskrit secara (dengan menerapkan algoritma divide and conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.  Objek data dimasukkan ke dalam table (sebagai elemen tabel).  Untuk setiap elemen data, dicocokkan dengan data pada template (pada data template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit, dengan cara yang sama dengan proses digitaiisasi data masukan bam yang ingin dicocokkan).  Setiap upa masalah disatukan kembali dan dianalisis secara keseluruhan, kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai dengan kata yang tersedia pada template data.  Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini. D. IMPLEMENTASI SPEECH RECOGNITION Hardware yang dibutuhkan dalam implementasi Speech Recognition :  Sound card : Merupakan perangkat yang ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi digital.  Microphone : Perangkat input suara yang berfungsi untuk mengubah suara yang melewati udara, air dari benda orang menjadi sinyal elektrik.  Komputer atau Komputer Server : Dalam proses suara digital menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan database yang berisi berkas suara agar dapat dikenali. Contoh Implementasi teknologi Speech Recognition : Saat ini pada tahun 2010 Microsoft windows vista dan windows 7 , speech recognition telah disertakan dalam system operasinya . sebagaimana fungsi dari speech recognition menterjemahkan pengucapan kata – kata kedalam bentuk teks digital. Salah satu implementasi speech recognition adalah pada konfrensi PBB dimana seluruh Negara tergabung dalam keanggotaan nya , fungsi speech recognition dalam hal ini menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa yang dipahami pendengar . Contoh penggunaan lain speech recognition adalah Perawatan kesehatan. Dalam perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi pengenalan suara, transcriptionists medis (MTs) belum menjadi usang. Layanan yang diberikan dapat didistribusikan daripada diganti. Pengenalan pembicaraan dapat diimplementasikan di front-end atau back-end dari proses dokumentasi medis. FrontEnd SR adalah salah satu alat untuk mengidentifikasi kata-kata yang ucapkan dan ditampilkan tepat setelah mereka berbicara Back-End SR atau SR tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan bersama dengan file suara yang asli ke MT / editor, yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri saat ini. Banyak aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan pengenalan-mesin bicara. Pencarian, query, dan pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara dibandingkan dengan menggunakan keyboard. BAB III KESIMPULAN Speech recognition merupakan salah satu jenis biometric recognition, yaitu proses komputer mengenali apa yang diucapkan seseorang berdasarkan intonasi suara yang dikonversikan ke dalam bentuk digital print. Pengenalan pola suara adalah salah satu aplikasi yang berkembang saat ini. Sistem ini mengijinkan kita untuk berkomunikasi antara manusia dengan memasukkan data ke komputer. Salah satu fungsinya ialah untuk meningkatkan efisiensi industri manufaktur, mengontrol mesin dengan berbicara pada mesin itu. Algoritma yang diimplementasikan untuk masalh pengenalan suara ini adalah algoritma divide and conquer. Proses awalnya ialah mengkonversi data spektrum suara ke dalam bentuk digital dan mengubah dalam bentuk diskrit. Dari bentuk diskrit itulah yang kemudian mengaplikasika algoritma divide and conquer untuk mengoptimalkan waktu pencocokan (kompleksitas berkurang). Contoh aplikasi yang menerapkan speech recognition antara lain Microsoft Voice dan Microsoft Dictation. DAFTAR PUSTAKA 1. http://id.wikipedia.org/wiki/Pengenalan_ucapan 2. http://yanti91.blogspot.com/2012/10/tugas-2-speech-recognition_12.html, 3. M.A.Anusuya and S.K.Katti.2009.speech recognition by Machine:A review.(online), (arxiv.org/pdf/1001.2267,diakses pada 30 november 2014). 4. Lippmann, R. 1997. Speech Recognition by Machine and humans. (online), (http://www.ee.columbia.edu/-dpwe/clases/e6820-2006-01/papers/Lipp97hummach.pdf,diakses pada 30 november 2014) 5. http://asrindonesia.blogspot.com/ 6. http://en.wikipedia.org/wiki/Speech_recognition 7. http://www.informatika.org/~rinaldi/Stmik/20072008/Makalah2008/MakalahIF2251-2008-077.pdf

Log In

speech recognition

Related papers

Related papers

Related topics