Nhận dạng giọng nói bằng cách sử dụng API giọng nói của Google và Python: 4 bước

Mục lục:

Bước 1: ReSpeaker USB 4-Mic Array
Bước 2: Cài đặt các thư viện bắt buộc
Bước 3: Chuyển văn bản thành giọng nói bằng Python với Thư viện Pyttsx3
Bước 4: Kết hợp tất cả lại: Xây dựng tính năng nhận dạng giọng nói với Python bằng cách sử dụng API nhận dạng giọng nói của Google và Thư viện Pyttsx3

2025 Tác giả: John Day | [email protected]. Sửa đổi lần cuối: 2025-01-23 15:15

Nhận dạng giọng nói

Nhận dạng giọng nói là một phần của Xử lý ngôn ngữ tự nhiên, một trường con của Trí tuệ nhân tạo. Nói một cách đơn giản, nhận dạng giọng nói là khả năng của một phần mềm máy tính xác định các từ và cụm từ trong ngôn ngữ nói và chuyển chúng thành văn bản có thể đọc được của con người. Nó được sử dụng trong một số ứng dụng như hệ thống trợ lý giọng nói, tự động hóa gia đình, chatbots dựa trên giọng nói, robot tương tác bằng giọng nói, trí tuệ nhân tạo, v.v.

Có các API khác nhau (Giao diện lập trình ứng dụng) để nhận dạng giọng nói. Họ cung cấp các dịch vụ miễn phí hoặc trả phí. Đó là:

CMU Sphinx
Nhận dạng giọng nói của Google
API giọng nói đám mây của Google
Wit.ai
Nhận dạng giọng nói Microsoft Bing
Houndify API
IBM Speech To Text
Phát hiện từ nóng Snowboy

Chúng tôi sẽ sử dụng tính năng Nhận dạng giọng nói của Google tại đây, vì nó không yêu cầu bất kỳ khóa API nào. Hướng dẫn này nhằm cung cấp giới thiệu về cách sử dụng thư viện Nhận dạng giọng nói của Google trên Python với sự trợ giúp của micrô bên ngoài như ReSpeaker USB 4-Mic Array từ Seeed Studio. Mặc dù không bắt buộc phải sử dụng micrô bên ngoài, ngay cả micrô tích hợp của máy tính xách tay cũng có thể được sử dụng.

Bước 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic là thiết bị bốn micrô được thiết kế cho các ứng dụng AI và giọng nói, được phát triển bởi Seeed Studio. Nó có 4 micrô đa hướng tích hợp, hiệu suất cao được thiết kế để thu giọng nói của bạn từ mọi nơi trong phòng và 12 đèn báo LED RGB có thể lập trình. Micrô USB ReSpeaker hỗ trợ hệ điều hành Linux, macOS và Windows. Thông tin chi tiết có thể được tìm thấy ở đây.

Mic USB ReSpeaker đi kèm trong một gói đẹp có chứa các mục sau:

Hướng dẫn sử dụng
ReSpeaker USB Mic Array
Cáp Micro USB sang USB

Vì vậy, chúng tôi đã sẵn sàng để bắt đầu.

Bước 2: Cài đặt các thư viện bắt buộc

Đối với hướng dẫn này, tôi giả sử bạn đang sử dụng Python 3.x.

Hãy cài đặt các thư viện:

pip3 cài đặt SpeechRecognition

Đối với macOS, trước tiên bạn cần cài đặt PortAudio với Homebrew, sau đó cài đặt PyAudio với pip3:

pha cài đặt portaudio

Chúng tôi chạy lệnh dưới đây để cài đặt pyaudio

pip3 cài đặt pyaudio

Đối với Linux, bạn có thể cài đặt PyAudio với apt:

sudo apt-get install python-pyaudio python3-pyaudio

Đối với Windows, bạn có thể cài đặt PyAudio bằng pip:

pip cài đặt pyaudio

Tạo một tệp python mới

nano get_index.py

Dán vào get_index.py đoạn mã bên dưới:

nhập pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') cho tôi trong phạm vi (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInputChannels '))> 0: print ("Id thiết bị đầu vào", i, "-", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Chạy lệnh sau:

python3 get_index.py

Trong trường hợp của tôi, lệnh đưa ra kết quả sau ra màn hình:

Id thiết bị đầu vào 1 - Mảng micrô 4 loa ReSpeaker (UAC1.0)

Id thiết bị đầu vào 2 - Micrô MacBook Air

Thay đổi device_index thành số chỉ mục theo lựa chọn của bạn trong đoạn mã bên dưới.

import speech_recognition dưới dạng sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) với lời nói là nguồn: print ("nói gì đó!…") audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: regg = r.recognize_google (audio, language = 'en-US') print ("Bạn đã nói:" + recovery) ngoại trừ sr. UnknownValueError: print ("Google Speech Recognition không thể hiểu âm thanh") ngoại trừ sr. RequestError as e: print ("Không thể yêu cầu kết quả từ dịch vụ Nhận dạng giọng nói của Google; {0}". Format (e))

Chỉ mục thiết bị được chọn 1 do Mảng Micrô ReSpeaker 4 sẽ là nguồn chính.

Bước 3: Chuyển văn bản thành giọng nói bằng Python với Thư viện Pyttsx3

Có một số API có sẵn để chuyển văn bản thành giọng nói trong python. Một trong những API như vậy là pyttsx3, đây là gói chuyển văn bản thành giọng nói tốt nhất hiện có theo quan điểm của tôi. Gói này hoạt động trên Windows, Mac và Linux. Kiểm tra tài liệu chính thức để xem cách này được thực hiện như thế nào.

Cài đặt gói Sử dụng pip để cài đặt gói.

pip cài đặt pyttsx3

Nếu bạn đang sử dụng Windows, bạn sẽ cần một gói bổ sung, pypiwin32 mà nó sẽ cần để truy cập API giọng nói gốc của Windows.

pip cài đặt pypiwin32

Chuyển văn bản thành giọng nói python script Dưới đây là đoạn mã cho văn bản thành giọng nói bằng cách sử dụng pyttsx3:

nhập pyttsx3

engine = pyttsx3.init ()

engine.setProperty ('rate', 150) # Phần trăm tốc độ

engine.setProperty ('volume', 0.9) # Volume 0-1

engine.say ("Xin chào, thế giới!")

engine.runAndWait ()

Bước 4: Kết hợp tất cả lại: Xây dựng tính năng nhận dạng giọng nói với Python bằng cách sử dụng API nhận dạng giọng nói của Google và Thư viện Pyttsx3

Đoạn mã dưới đây chịu trách nhiệm nhận dạng giọng nói của con người bằng tính năng Nhận dạng giọng nói của Google và chuyển đổi văn bản thành giọng nói bằng thư viện pyttsx3.

import speech_recognition dưới dạng sr

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) với giọng nói là nguồn: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: reg = r.recognize_google (audio, language = 'en-US') print ("Bạn đã nói:" + retg) engine.say (" Bạn đã nói: "+ recg) engine.runAndWait () ngoại trừ sr. UnknownValueError: engine.say (" Google Speech Recognition không thể hiểu âm thanh ") engine.runAndWait () ngoại trừ sr. RequestError as e: engine.say (" Không thể yêu cầu kết quả từ dịch vụ Nhận dạng giọng nói của Google; {0} ". format (e)) engine.runAndWait ()

Nó in đầu ra trên thiết bị đầu cuối. Ngoài ra, nó cũng sẽ được chuyển đổi thành giọng nói.

Bạn đã nói: London là thủ đô của Vương quốc Anh

Tôi hy vọng bây giờ bạn đã hiểu rõ hơn về cách hoạt động của tính năng nhận dạng giọng nói nói chung và quan trọng nhất là cách triển khai điều đó bằng cách sử dụng API nhận dạng giọng nói của Google với Python.

Nếu bạn có bất kỳ câu hỏi hoặc phản hồi nào? Để lại bình luận bên dưới. Giữ nguyên!

Đề xuất:

Nhận dạng và Nhận dạng khuôn mặt - Arduino Face ID sử dụng OpenCV Python và Arduino.: 6 bước

Nhận dạng và Nhận dạng khuôn mặt | Arduino Face ID Sử dụng OpenCV Python và Arduino: Nhận dạng khuôn mặt ID khuôn mặt AKA là một trong những tính năng quan trọng nhất trên điện thoại di động hiện nay. Vì vậy, tôi đã có một câu hỏi " liệu tôi có thể có id khuôn mặt cho dự án Arduino của mình không " và câu trả lời là có … Hành trình của tôi bắt đầu như sau: Bước 1: Truy cập vào chúng tôi

Gương thần thông minh nổi từ máy tính xách tay cũ với tính năng nhận dạng giọng nói Alexa: 6 bước (có hình ảnh)

Gương thần thông minh nổi từ máy tính xách tay cũ với tính năng nhận dạng giọng nói Alexa: Đăng ký khóa học 'Điện tử trong thời gian ngắn' của tôi tại đây: https://www.udemy.com/electronics-in-a-nutshell/?couponCode=TINKERSPARK Cũng xem qua của tôi kênh youtube tại đây để biết thêm các dự án và hướng dẫn về điện tử: https://www.youtube.com/channel/UCelOO

Atollic TrueStudio-Bật đèn LED bằng cách nhấn nút nhấn bằng cách sử dụng STM32L100: 4 bước

Atollic TrueStudio-Bật đèn LED bằng cách nhấn nút nhấn Sử dụng STM32L100: Trong hướng dẫn này của STM32, tôi sẽ cho bạn biết về cách đọc chân GPIO của STM32L100, vì vậy ở đây tôi sẽ làm cho một chân Led trên bo mạch phát sáng bằng cách nhấn nút nhấn

Cách kết nối ứng dụng Android với AWS IOT và hiểu API nhận dạng giọng nói: 3 bước

Cách kết nối ứng dụng Android với AWS IOT và hiểu API nhận dạng giọng nói: Hướng dẫn này hướng dẫn người dùng cách kết nối Ứng dụng Android với máy chủ AWS IOT và hiểu API nhận dạng giọng nói điều khiển Máy pha cà phê. Ứng dụng điều khiển Máy pha cà phê thông qua Alexa Dịch vụ thoại, mỗi ứng dụng c

Cách xuất Nội dung nổi bật của Kindle (Bao gồm Tài liệu Cá nhân): 6 bước

Cách xuất Nội dung nổi bật của Kindle (Bao gồm Tài liệu Cá nhân): Đây ban đầu là một bài đăng trên blog của tôi. Tôi nhận ra rằng tôi đã viết rất nhiều bài đăng tự làm phù hợp để làm thành các tài liệu hướng dẫn nên tôi nghĩ tôi sẽ đăng lại các bài đăng ở đây. Bạn có thể đọc các bài viết gốc tại blog của tôi ở đây. Người hướng dẫn có ong

Nhận dạng giọng nói bằng cách sử dụng API giọng nói của Google và Python: 4 bước

Mục lục:

Nhận dạng giọng nói

Bước 1: ReSpeaker USB 4-Mic Array

Bước 2: Cài đặt các thư viện bắt buộc

Bước 3: Chuyển văn bản thành giọng nói bằng Python với Thư viện Pyttsx3

Bước 4: Kết hợp tất cả lại: Xây dựng tính năng nhận dạng giọng nói với Python bằng cách sử dụng API nhận dạng giọng nói của Google và Thư viện Pyttsx3

Đề xuất:

Nhận dạng và Nhận dạng khuôn mặt - Arduino Face ID sử dụng OpenCV Python và Arduino.: 6 bước

Gương thần thông minh nổi từ máy tính xách tay cũ với tính năng nhận dạng giọng nói Alexa: 6 bước (có hình ảnh)

Atollic TrueStudio-Bật đèn LED bằng cách nhấn nút nhấn bằng cách sử dụng STM32L100: 4 bước

Cách kết nối ứng dụng Android với AWS IOT và hiểu API nhận dạng giọng nói: 3 bước

Cách xuất Nội dung nổi bật của Kindle (Bao gồm Tài liệu Cá nhân): 6 bước

Robot hai ngón dễ dàng: 4 bước

Tất cả những gì bạn cần biết về đèn LED: 7 bước (có hình ảnh)

Sử dụng cảm biến vân tay để chấm công kết hợp với giải pháp XAMP: 6 bước (có hình ảnh)

Xe tải kéo ba trục (cnc) - PLC: 4 bước

Hộp điều khiển nhiệm vụ V3.0: 4 bước

Hướng dẫn Arduino RFID 'Smart Door': 7 bước

Cách sử dụng tế bào quang điện để thay đổi màu sắc của đèn LED RGB: 3 bước

Cách tạo máy dò khoảng cách xã hội: 15 bước

Máy dò mưa sử dụng Arduino và cảm biến hạt mưa: 8 bước

Cách tạo máy tính xách tay Raspberry Pi: 8 bước

Đèn Jack-O-Lantern có thể đeo được: 5 bước (có hình ảnh)

Cách gửi dữ liệu từ M5Stack StickC đến Delphi: 6 bước

Búp bê sở hữu: 5 bước

Băng đô ngủ đầu đọc: 24 bước (có hình ảnh)

Đèn hậu tuần tự: 7 bước

Đèn có thể điều chỉnh di động từ pin dự phòng: 9 bước (có hình ảnh)