Mục lục:
- Bước 1: ReSpeaker USB 4-Mic Array
- Bước 2: Cài đặt các thư viện bắt buộc
- Bước 3: Chuyển văn bản thành giọng nói bằng Python với Thư viện Pyttsx3
- Bước 4: Kết hợp tất cả lại: Xây dựng tính năng nhận dạng giọng nói với Python bằng cách sử dụng API nhận dạng giọng nói của Google và Thư viện Pyttsx3
Video: Nhận dạng giọng nói bằng cách sử dụng API giọng nói của Google và Python: 4 bước
2024 Tác giả: John Day | [email protected]. Sửa đổi lần cuối: 2024-01-30 13:32
Nhận dạng giọng nói
Nhận dạng giọng nói là một phần của Xử lý ngôn ngữ tự nhiên, một trường con của Trí tuệ nhân tạo. Nói một cách đơn giản, nhận dạng giọng nói là khả năng của một phần mềm máy tính xác định các từ và cụm từ trong ngôn ngữ nói và chuyển chúng thành văn bản có thể đọc được của con người. Nó được sử dụng trong một số ứng dụng như hệ thống trợ lý giọng nói, tự động hóa gia đình, chatbots dựa trên giọng nói, robot tương tác bằng giọng nói, trí tuệ nhân tạo, v.v.
Có các API khác nhau (Giao diện lập trình ứng dụng) để nhận dạng giọng nói. Họ cung cấp các dịch vụ miễn phí hoặc trả phí. Đó là:
- CMU Sphinx
- Nhận dạng giọng nói của Google
- API giọng nói đám mây của Google
- Wit.ai
- Nhận dạng giọng nói Microsoft Bing
- Houndify API
- IBM Speech To Text
- Phát hiện từ nóng Snowboy
Chúng tôi sẽ sử dụng tính năng Nhận dạng giọng nói của Google tại đây, vì nó không yêu cầu bất kỳ khóa API nào. Hướng dẫn này nhằm cung cấp giới thiệu về cách sử dụng thư viện Nhận dạng giọng nói của Google trên Python với sự trợ giúp của micrô bên ngoài như ReSpeaker USB 4-Mic Array từ Seeed Studio. Mặc dù không bắt buộc phải sử dụng micrô bên ngoài, ngay cả micrô tích hợp của máy tính xách tay cũng có thể được sử dụng.
Bước 1: ReSpeaker USB 4-Mic Array
ReSpeaker USB Mic là thiết bị bốn micrô được thiết kế cho các ứng dụng AI và giọng nói, được phát triển bởi Seeed Studio. Nó có 4 micrô đa hướng tích hợp, hiệu suất cao được thiết kế để thu giọng nói của bạn từ mọi nơi trong phòng và 12 đèn báo LED RGB có thể lập trình. Micrô USB ReSpeaker hỗ trợ hệ điều hành Linux, macOS và Windows. Thông tin chi tiết có thể được tìm thấy ở đây.
Mic USB ReSpeaker đi kèm trong một gói đẹp có chứa các mục sau:
- Hướng dẫn sử dụng
- ReSpeaker USB Mic Array
- Cáp Micro USB sang USB
Vì vậy, chúng tôi đã sẵn sàng để bắt đầu.
Bước 2: Cài đặt các thư viện bắt buộc
Đối với hướng dẫn này, tôi giả sử bạn đang sử dụng Python 3.x.
Hãy cài đặt các thư viện:
pip3 cài đặt SpeechRecognition
Đối với macOS, trước tiên bạn cần cài đặt PortAudio với Homebrew, sau đó cài đặt PyAudio với pip3:
pha cài đặt portaudio
Chúng tôi chạy lệnh dưới đây để cài đặt pyaudio
pip3 cài đặt pyaudio
Đối với Linux, bạn có thể cài đặt PyAudio với apt:
sudo apt-get install python-pyaudio python3-pyaudio
Đối với Windows, bạn có thể cài đặt PyAudio bằng pip:
pip cài đặt pyaudio
Tạo một tệp python mới
nano get_index.py
Dán vào get_index.py đoạn mã bên dưới:
nhập pyaudio
p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') cho tôi trong phạm vi (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInputChannels '))> 0: print ("Id thiết bị đầu vào", i, "-", p.get_device_info_by_host_api_device_index (0, i).get (' name '))
Chạy lệnh sau:
python3 get_index.py
Trong trường hợp của tôi, lệnh đưa ra kết quả sau ra màn hình:
Id thiết bị đầu vào 1 - Mảng micrô 4 loa ReSpeaker (UAC1.0)
Id thiết bị đầu vào 2 - Micrô MacBook Air
Thay đổi device_index thành số chỉ mục theo lựa chọn của bạn trong đoạn mã bên dưới.
import speech_recognition dưới dạng sr
r = sr. Recognizer () speech = sr. Microphone (device_index = 1) với lời nói là nguồn: print ("nói gì đó!…") audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: regg = r.recognize_google (audio, language = 'en-US') print ("Bạn đã nói:" + recovery) ngoại trừ sr. UnknownValueError: print ("Google Speech Recognition không thể hiểu âm thanh") ngoại trừ sr. RequestError as e: print ("Không thể yêu cầu kết quả từ dịch vụ Nhận dạng giọng nói của Google; {0}". Format (e))
Chỉ mục thiết bị được chọn 1 do Mảng Micrô ReSpeaker 4 sẽ là nguồn chính.
Bước 3: Chuyển văn bản thành giọng nói bằng Python với Thư viện Pyttsx3
Có một số API có sẵn để chuyển văn bản thành giọng nói trong python. Một trong những API như vậy là pyttsx3, đây là gói chuyển văn bản thành giọng nói tốt nhất hiện có theo quan điểm của tôi. Gói này hoạt động trên Windows, Mac và Linux. Kiểm tra tài liệu chính thức để xem cách này được thực hiện như thế nào.
Cài đặt gói Sử dụng pip để cài đặt gói.
pip cài đặt pyttsx3
Nếu bạn đang sử dụng Windows, bạn sẽ cần một gói bổ sung, pypiwin32 mà nó sẽ cần để truy cập API giọng nói gốc của Windows.
pip cài đặt pypiwin32
Chuyển văn bản thành giọng nói python script Dưới đây là đoạn mã cho văn bản thành giọng nói bằng cách sử dụng pyttsx3:
nhập pyttsx3
engine = pyttsx3.init ()
engine.setProperty ('rate', 150) # Phần trăm tốc độ
engine.setProperty ('volume', 0.9) # Volume 0-1
engine.say ("Xin chào, thế giới!")
engine.runAndWait ()
Bước 4: Kết hợp tất cả lại: Xây dựng tính năng nhận dạng giọng nói với Python bằng cách sử dụng API nhận dạng giọng nói của Google và Thư viện Pyttsx3
Đoạn mã dưới đây chịu trách nhiệm nhận dạng giọng nói của con người bằng tính năng Nhận dạng giọng nói của Google và chuyển đổi văn bản thành giọng nói bằng thư viện pyttsx3.
import speech_recognition dưới dạng sr
import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) với giọng nói là nguồn: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: reg = r.recognize_google (audio, language = 'en-US') print ("Bạn đã nói:" + retg) engine.say (" Bạn đã nói: "+ recg) engine.runAndWait () ngoại trừ sr. UnknownValueError: engine.say (" Google Speech Recognition không thể hiểu âm thanh ") engine.runAndWait () ngoại trừ sr. RequestError as e: engine.say (" Không thể yêu cầu kết quả từ dịch vụ Nhận dạng giọng nói của Google; {0} ". format (e)) engine.runAndWait ()
Nó in đầu ra trên thiết bị đầu cuối. Ngoài ra, nó cũng sẽ được chuyển đổi thành giọng nói.
Bạn đã nói: London là thủ đô của Vương quốc Anh
Tôi hy vọng bây giờ bạn đã hiểu rõ hơn về cách hoạt động của tính năng nhận dạng giọng nói nói chung và quan trọng nhất là cách triển khai điều đó bằng cách sử dụng API nhận dạng giọng nói của Google với Python.
Nếu bạn có bất kỳ câu hỏi hoặc phản hồi nào? Để lại bình luận bên dưới. Giữ nguyên!
Đề xuất:
Nhận dạng và Nhận dạng khuôn mặt - Arduino Face ID sử dụng OpenCV Python và Arduino.: 6 bước
Nhận dạng và Nhận dạng khuôn mặt | Arduino Face ID Sử dụng OpenCV Python và Arduino: Nhận dạng khuôn mặt ID khuôn mặt AKA là một trong những tính năng quan trọng nhất trên điện thoại di động hiện nay. Vì vậy, tôi đã có một câu hỏi " liệu tôi có thể có id khuôn mặt cho dự án Arduino của mình không " và câu trả lời là có … Hành trình của tôi bắt đầu như sau: Bước 1: Truy cập vào chúng tôi
Gương thần thông minh nổi từ máy tính xách tay cũ với tính năng nhận dạng giọng nói Alexa: 6 bước (có hình ảnh)
Gương thần thông minh nổi từ máy tính xách tay cũ với tính năng nhận dạng giọng nói Alexa: Đăng ký khóa học 'Điện tử trong thời gian ngắn' của tôi tại đây: https://www.udemy.com/electronics-in-a-nutshell/?couponCode=TINKERSPARK Cũng xem qua của tôi kênh youtube tại đây để biết thêm các dự án và hướng dẫn về điện tử: https://www.youtube.com/channel/UCelOO
Atollic TrueStudio-Bật đèn LED bằng cách nhấn nút nhấn bằng cách sử dụng STM32L100: 4 bước
Atollic TrueStudio-Bật đèn LED bằng cách nhấn nút nhấn Sử dụng STM32L100: Trong hướng dẫn này của STM32, tôi sẽ cho bạn biết về cách đọc chân GPIO của STM32L100, vì vậy ở đây tôi sẽ làm cho một chân Led trên bo mạch phát sáng bằng cách nhấn nút nhấn
Cách kết nối ứng dụng Android với AWS IOT và hiểu API nhận dạng giọng nói: 3 bước
Cách kết nối ứng dụng Android với AWS IOT và hiểu API nhận dạng giọng nói: Hướng dẫn này hướng dẫn người dùng cách kết nối Ứng dụng Android với máy chủ AWS IOT và hiểu API nhận dạng giọng nói điều khiển Máy pha cà phê. Ứng dụng điều khiển Máy pha cà phê thông qua Alexa Dịch vụ thoại, mỗi ứng dụng c
Cách xuất Nội dung nổi bật của Kindle (Bao gồm Tài liệu Cá nhân): 6 bước
Cách xuất Nội dung nổi bật của Kindle (Bao gồm Tài liệu Cá nhân): Đây ban đầu là một bài đăng trên blog của tôi. Tôi nhận ra rằng tôi đã viết rất nhiều bài đăng tự làm phù hợp để làm thành các tài liệu hướng dẫn nên tôi nghĩ tôi sẽ đăng lại các bài đăng ở đây. Bạn có thể đọc các bài viết gốc tại blog của tôi ở đây. Người hướng dẫn có ong