विषयसूची:
- चरण 1: रीस्पीकर यूएसबी 4-माइक ऐरे
- चरण 2: आवश्यक पुस्तकालय स्थापित करें
- चरण 3: Pyttsx3 लाइब्रेरी के साथ पायथन में टेक्स्ट-टू-स्पीच
- चरण 4: यह सब एक साथ रखना: Google भाषण पहचान API और Pyttsx3 लाइब्रेरी का उपयोग करके पायथन के साथ भाषण पहचान बनाना
वीडियो: Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम
2024 लेखक: John Day | [email protected]. अंतिम बार संशोधित: 2024-01-30 09:20
वाक् पहचान
वाक् पहचान प्राकृतिक भाषा प्रसंस्करण का एक हिस्सा है जो आर्टिफिशियल इंटेलिजेंस का एक उपक्षेत्र है। सीधे शब्दों में कहें तो, वाक् पहचान एक कंप्यूटर सॉफ्टवेयर की बोली जाने वाली भाषा में शब्दों और वाक्यांशों की पहचान करने और उन्हें मानव पठनीय पाठ में बदलने की क्षमता है। इसका उपयोग कई अनुप्रयोगों जैसे वॉयस असिस्टेंट सिस्टम, होम ऑटोमेशन, वॉयस आधारित चैटबॉट, वॉयस इंटरेक्टिंग रोबोट, आर्टिफिशियल इंटेलिजेंस और आदि में किया जाता है।
भाषण को पहचानने के लिए अलग-अलग एपीआई (एप्लिकेशन प्रोग्रामिंग इंटरफेस) हैं। वे या तो मुफ्त या सशुल्क सेवाएं प्रदान करते हैं। य़े हैं:
- सीएमयू स्फिंक्स
- गूगल वाक् पहचान
- Google क्लाउड स्पीच API
- बुद्धि.एआई
- माइक्रोसॉफ्ट बिंग वॉयस रिकग्निशन
- हाउंडीफाई एपीआई
- पाठ के लिए आईबीएम भाषण
- स्नोबॉय हॉटवर्ड डिटेक्शन
हम यहां Google स्पीच रिकग्निशन का उपयोग करेंगे, क्योंकि इसके लिए किसी API कुंजी की आवश्यकता नहीं है। इस ट्यूटोरियल का उद्देश्य सीड स्टूडियो से रीस्पीकर यूएसबी 4-माइक ऐरे जैसे बाहरी माइक्रोफोन की मदद से पायथन पर Google स्पीच रिकग्निशन लाइब्रेरी का उपयोग करने के तरीके पर एक परिचय प्रदान करना है। हालांकि बाहरी माइक्रोफोन का उपयोग करना अनिवार्य नहीं है, यहां तक कि लैपटॉप के बिल्ट-इन माइक्रोफोन का भी उपयोग किया जा सकता है।
चरण 1: रीस्पीकर यूएसबी 4-माइक ऐरे
रीस्पीकर यूएसबी माइक एक क्वाड-माइक्रोफोन डिवाइस है जिसे एआई और वॉयस एप्लिकेशन के लिए डिज़ाइन किया गया है, जिसे सीड स्टूडियो द्वारा विकसित किया गया था। इसमें 4 उच्च प्रदर्शन, अंतर्निहित सर्वव्यापी माइक्रोफ़ोन हैं जो कमरे में कहीं से भी आपकी आवाज़ उठाने के लिए डिज़ाइन किए गए हैं और 12 प्रोग्राम करने योग्य आरजीबी एलईडी संकेतक हैं। रीस्पीकर यूएसबी माइक लिनक्स, मैकओएस और विंडोज ऑपरेटिंग सिस्टम को सपोर्ट करता है। विवरण यहां पाया जा सकता है।
रीस्पीकर यूएसबी माइक निम्नलिखित मदों वाले एक अच्छे पैकेज में आता है:
- एक उपयोगकर्ता गाइड
- रीस्पीकर यूएसबी माइक ऐरे
- माइक्रो यूएसबी से यूएसबी केबल
तो हम आरंभ करने के लिए तैयार हैं।
चरण 2: आवश्यक पुस्तकालय स्थापित करें
इस ट्यूटोरियल के लिए, मुझे लगता है कि आप Python 3.x का उपयोग कर रहे हैं।
आइए पुस्तकालयों को स्थापित करें:
pip3 स्पीच रिकॉग्निशन स्थापित करें
MacOS के लिए, पहले आपको Homebrew के साथ PortAudio स्थापित करना होगा, और फिर PyAudio को pip3 के साथ स्थापित करना होगा:
काढ़ा स्थापित करें portaudio
हम pyaudio स्थापित करने के लिए कमांड के नीचे चलाते हैं
pip3 pyaudio स्थापित करें
लिनक्स के लिए, आप उपयुक्त के साथ PyAudio स्थापित कर सकते हैं:
sudo apt-पायथन-प्यूडियो स्थापित करें python3-pyaudio
Windows के लिए, आप PyAudio को pip के साथ स्थापित कर सकते हैं:
पाइप स्थापित pyaudio
एक नई पायथन फ़ाइल बनाएँ
नैनो get_index.py
get_index.py पर कोड स्निपेट के नीचे पेस्ट करें:
ऑडियो आयात करें
p = pyaudio. PyAudio() जानकारी = p.get_host_api_info_by_index(0)numdevices = info.get('deviceCount') मेरे लिए रेंज में (0, numdevices): अगर (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels) '))> 0: प्रिंट ("इनपुट डिवाइस आईडी ", i," - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))
निम्न आदेश चलाएँ:
python3 get_index.py
मेरे मामले में, कमांड स्क्रीन पर निम्न आउटपुट देता है:
इनपुट डिवाइस आईडी 1 - रीस्पीकर 4 माइक ऐरे (UAC1.0)
इनपुट डिवाइस आईडी 2 - मैकबुक एयर माइक्रोफोन
नीचे दिए गए कोड स्निपेट में अपनी पसंद के अनुसार डिवाइस_इंडेक्स को इंडेक्स नंबर में बदलें।
sr. के रूप में वाक्_पहचान आयात करें
r = sr. Recognizer() भाषण = sr. Microphone(device_index=1) भाषण के साथ स्रोत के रूप में: प्रिंट ("कुछ कहो! …") ऑडियो = r.adjust_for_ambient_noise (स्रोत) ऑडियो = r.listen (स्रोत) कोशिश करें: recog = r. Recognize_google(audio, language = 'en-US') प्रिंट ("आपने कहा:" + recog) sr को छोड़कर। UnknownValueError: Print ("Google स्पीच रिकॉग्निशन ऑडियो को समझ नहीं सका") sr को छोड़कर। RequestError as e: प्रिंट ("Google वाक् पहचान सेवा से परिणामों का अनुरोध नहीं किया जा सका; {0}.format(e))
डिवाइस इंडेक्स को 1 चुना गया था क्योंकि रीस्पीकर 4 माइक ऐरे मुख्य स्रोत के रूप में होगा।
चरण 3: Pyttsx3 लाइब्रेरी के साथ पायथन में टेक्स्ट-टू-स्पीच
पायथन में टेक्स्ट को स्पीच में बदलने के लिए कई एपीआई उपलब्ध हैं। ऐसे एपीआई में से एक pyttsx3 है, जो मेरी राय में सबसे अच्छा उपलब्ध टेक्स्ट-टू-स्पीच पैकेज है। यह पैकेज विंडोज, मैक और लिनक्स में काम करता है। यह कैसे किया जाता है यह देखने के लिए आधिकारिक दस्तावेज देखें।
पैकेज स्थापित करेंपैकेज को स्थापित करने के लिए पाइप का उपयोग करें।
पाइप स्थापित करें pyttsx3
यदि आप विंडोज़ में हैं, तो आपको एक अतिरिक्त पैकेज, pypiwin32 की आवश्यकता होगी, जिसे इसे मूल विंडोज स्पीच एपीआई तक पहुंचने की आवश्यकता होगी।
पाइप स्थापित pypiwin32
टेक्स्ट को स्पीच में बदलें पायथन स्क्रिप्ट नीचे pyttsx3 का उपयोग करके टेक्स्ट टू स्पीच के लिए कोड स्निपेट है:
आयात pyttsx3
इंजन = pyttsx3.init ()
engine.setProperty('rate', 150) # स्पीड प्रतिशत
engine.setProperty('volume', 0.9) # Volume 0-1
engine.say ("हैलो, वर्ल्ड!")
engine.runAndWait ()
चरण 4: यह सब एक साथ रखना: Google भाषण पहचान API और Pyttsx3 लाइब्रेरी का उपयोग करके पायथन के साथ भाषण पहचान बनाना
नीचे दिया गया कोड Google स्पीच रिकग्निशन का उपयोग करके मानव भाषण को पहचानने और pyttsx3 लाइब्रेरी का उपयोग करके टेक्स्ट को स्पीच में बदलने के लिए जिम्मेदार है।
sr. के रूप में वाक्_पहचान आयात करें
आयात pyttsx3 इंजन = pyttsx3.init () engine.setProperty('rate', 200) engine.setProperty('volume', 0.9) r = sr. Recognizer() भाषण = sr. Microphone(device_index=1) भाषण के साथ स्रोत के रूप में: ऑडियो = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.identize_google(audio, language = 'en-US') print("आपने कहा:" + recog) engine.say(" आपने कहा: "+ recog) engine.runAndWait() sr. UnknownValueError को छोड़कर: engine.say ("Google स्पीच रिकॉग्निशन ऑडियो को समझ नहीं सका") engine.runAndWait() sr. RequestError को छोड़कर e: engine.say("नहीं कर सका Google वाक् पहचान सेवा से अनुरोध परिणाम; {0}.format(e)) engine.runAndWait()
यह टर्मिनल पर आउटपुट प्रिंट करता है। साथ ही इसे भाषण में भी रूपांतरित किया जाएगा।
आपने कहा: लंदन ग्रेट ब्रिटेन की राजधानी है
मुझे आशा है कि अब आपको बेहतर समझ है कि भाषण पहचान सामान्य रूप से कैसे काम करती है और सबसे महत्वपूर्ण बात यह है कि पायथन के साथ Google भाषण पहचान एपीआई का उपयोग करके इसे कैसे कार्यान्वित किया जाए।
यदि आपके कोई प्रश्न या प्रतिक्रिया है? नीचे एक टिप्पणी छोड़ दो। बने रहें!
सिफारिश की:
(आईओटी परियोजना) ईएसपी8266 और ओपनवेदर एपीआई का उपयोग करके मौसम डेटा प्राप्त करें: 5 कदम
(IOT प्रोजेक्ट) ESP8266 और Openweather API का उपयोग करके मौसम डेटा प्राप्त करें: इस निर्देश में हम एक साधारण IOT प्रोजेक्ट बनाने जा रहे हैं, जिसमें openweather.com/api से हमारे शहर का मौसम डेटा प्राप्त करें और इसे प्रोसेसिंग सॉफ़्टवेयर का उपयोग करके प्रदर्शित करें।
चेहरा पहचान और पहचान - ओपनसीवी पायथन और अरुडिनो का उपयोग करके Arduino फेस आईडी .: 6 कदम
चेहरा पहचान और पहचान | ओपनसीवी पायथन और अरुडिनो का उपयोग करते हुए Arduino फेस आईडी: चेहरे की पहचान AKA फेस आईडी आजकल मोबाइल फोन पर सबसे महत्वपूर्ण विशेषताओं में से एक है। तो, मेरा एक प्रश्न था "क्या मेरे पास अपने Arduino प्रोजेक्ट के लिए एक फेस आईडी हो सकता है" और इसका उत्तर हां है… मेरी यात्रा इस प्रकार शुरू हुई: चरण 1: हम तक पहुंच
LM386 का उपयोग करके Arduino टेक्स्ट टू स्पीच कन्वर्टर - बात कर रहे Arduino प्रोजेक्ट - टॉकी अरुडिनो लाइब्रेरी: 5 कदम
LM386 का उपयोग करके Arduino टेक्स्ट टू स्पीच कन्वर्टर | बात कर रहे Arduino प्रोजेक्ट | टॉकी अरुडिनो लाइब्रेरी: हाय दोस्तों, कई प्रोजेक्ट में हमें कुछ बोलने के लिए आर्डिनो की आवश्यकता होती है जैसे घड़ी की बात करना या कुछ डेटा बताना ताकि इस निर्देश में हम अरुडिनो का उपयोग करके टेक्स्ट को भाषण में बदल देंगे
डार्क स्काई एपीआई का उपयोग करके एक मौसम डैशबोर्ड बनाएं: 5 कदम (चित्रों के साथ)
डार्क स्काई एपीआई का उपयोग करके एक मौसम डैशबोर्ड बनाएं: डार्क स्काई मौसम की भविष्यवाणी और विज़ुअलाइज़ेशन में माहिर है। डार्क स्काई का सबसे अच्छा पहलू उनका वेदर एपीआई है जिसका उपयोग हम दुनिया में लगभग कहीं से भी मौसम के आंकड़ों को पुनः प्राप्त करने के लिए कर सकते हैं। यह सिर्फ बारिश या धूप का मौसम नहीं है, बल्कि तापमान
चेहरा पहचान+पहचान: 8 कदम (चित्रों के साथ)
फेस डिटेक्शन + रिकग्निशन: यह एक कैमरे से ओपनसीवी के साथ फेस डिटेक्शन और रिकग्निशन चलाने का एक सरल उदाहरण है। नोट: मैंने इस परियोजना को सेंसर प्रतियोगिता के लिए बनाया है और मैंने कैमरे का उपयोग सेंसर के रूप में ट्रैक और पहचान के लिए किया है। तो, हमारा लक्ष्य इस सत्र में, 1. एनाकोंडा स्थापित करें