Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम

विषयसूची:

चरण 1: रीस्पीकर यूएसबी 4-माइक ऐरे
चरण 2: आवश्यक पुस्तकालय स्थापित करें
चरण 3: Pyttsx3 लाइब्रेरी के साथ पायथन में टेक्स्ट-टू-स्पीच
चरण 4: यह सब एक साथ रखना: Google भाषण पहचान API और Pyttsx3 लाइब्रेरी का उपयोग करके पायथन के साथ भाषण पहचान बनाना

वीडियो: Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम

2024 लेखक: John Day | [email protected]. अंतिम बार संशोधित: 2024-01-30 09:20

वाक् पहचान

वाक् पहचान प्राकृतिक भाषा प्रसंस्करण का एक हिस्सा है जो आर्टिफिशियल इंटेलिजेंस का एक उपक्षेत्र है। सीधे शब्दों में कहें तो, वाक् पहचान एक कंप्यूटर सॉफ्टवेयर की बोली जाने वाली भाषा में शब्दों और वाक्यांशों की पहचान करने और उन्हें मानव पठनीय पाठ में बदलने की क्षमता है। इसका उपयोग कई अनुप्रयोगों जैसे वॉयस असिस्टेंट सिस्टम, होम ऑटोमेशन, वॉयस आधारित चैटबॉट, वॉयस इंटरेक्टिंग रोबोट, आर्टिफिशियल इंटेलिजेंस और आदि में किया जाता है।

भाषण को पहचानने के लिए अलग-अलग एपीआई (एप्लिकेशन प्रोग्रामिंग इंटरफेस) हैं। वे या तो मुफ्त या सशुल्क सेवाएं प्रदान करते हैं। य़े हैं:

सीएमयू स्फिंक्स
गूगल वाक् पहचान
Google क्लाउड स्पीच API
बुद्धि.एआई
माइक्रोसॉफ्ट बिंग वॉयस रिकग्निशन
हाउंडीफाई एपीआई
पाठ के लिए आईबीएम भाषण
स्नोबॉय हॉटवर्ड डिटेक्शन

हम यहां Google स्पीच रिकग्निशन का उपयोग करेंगे, क्योंकि इसके लिए किसी API कुंजी की आवश्यकता नहीं है। इस ट्यूटोरियल का उद्देश्य सीड स्टूडियो से रीस्पीकर यूएसबी 4-माइक ऐरे जैसे बाहरी माइक्रोफोन की मदद से पायथन पर Google स्पीच रिकग्निशन लाइब्रेरी का उपयोग करने के तरीके पर एक परिचय प्रदान करना है। हालांकि बाहरी माइक्रोफोन का उपयोग करना अनिवार्य नहीं है, यहां तक कि लैपटॉप के बिल्ट-इन माइक्रोफोन का भी उपयोग किया जा सकता है।

चरण 1: रीस्पीकर यूएसबी 4-माइक ऐरे

रीस्पीकर यूएसबी माइक एक क्वाड-माइक्रोफोन डिवाइस है जिसे एआई और वॉयस एप्लिकेशन के लिए डिज़ाइन किया गया है, जिसे सीड स्टूडियो द्वारा विकसित किया गया था। इसमें 4 उच्च प्रदर्शन, अंतर्निहित सर्वव्यापी माइक्रोफ़ोन हैं जो कमरे में कहीं से भी आपकी आवाज़ उठाने के लिए डिज़ाइन किए गए हैं और 12 प्रोग्राम करने योग्य आरजीबी एलईडी संकेतक हैं। रीस्पीकर यूएसबी माइक लिनक्स, मैकओएस और विंडोज ऑपरेटिंग सिस्टम को सपोर्ट करता है। विवरण यहां पाया जा सकता है।

रीस्पीकर यूएसबी माइक निम्नलिखित मदों वाले एक अच्छे पैकेज में आता है:

एक उपयोगकर्ता गाइड
रीस्पीकर यूएसबी माइक ऐरे
माइक्रो यूएसबी से यूएसबी केबल

तो हम आरंभ करने के लिए तैयार हैं।

चरण 2: आवश्यक पुस्तकालय स्थापित करें

इस ट्यूटोरियल के लिए, मुझे लगता है कि आप Python 3.x का उपयोग कर रहे हैं।

आइए पुस्तकालयों को स्थापित करें:

pip3 स्पीच रिकॉग्निशन स्थापित करें

MacOS के लिए, पहले आपको Homebrew के साथ PortAudio स्थापित करना होगा, और फिर PyAudio को pip3 के साथ स्थापित करना होगा:

काढ़ा स्थापित करें portaudio

हम pyaudio स्थापित करने के लिए कमांड के नीचे चलाते हैं

pip3 pyaudio स्थापित करें

लिनक्स के लिए, आप उपयुक्त के साथ PyAudio स्थापित कर सकते हैं:

sudo apt-पायथन-प्यूडियो स्थापित करें python3-pyaudio

Windows के लिए, आप PyAudio को pip के साथ स्थापित कर सकते हैं:

पाइप स्थापित pyaudio

एक नई पायथन फ़ाइल बनाएँ

नैनो get_index.py

get_index.py पर कोड स्निपेट के नीचे पेस्ट करें:

ऑडियो आयात करें

p = pyaudio. PyAudio() जानकारी = p.get_host_api_info_by_index(0)numdevices = info.get('deviceCount') मेरे लिए रेंज में (0, numdevices): अगर (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels) '))> 0: प्रिंट ("इनपुट डिवाइस आईडी ", i," - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))

निम्न आदेश चलाएँ:

python3 get_index.py

मेरे मामले में, कमांड स्क्रीन पर निम्न आउटपुट देता है:

इनपुट डिवाइस आईडी 1 - रीस्पीकर 4 माइक ऐरे (UAC1.0)

इनपुट डिवाइस आईडी 2 - मैकबुक एयर माइक्रोफोन

नीचे दिए गए कोड स्निपेट में अपनी पसंद के अनुसार डिवाइस_इंडेक्स को इंडेक्स नंबर में बदलें।

sr. के रूप में वाक्_पहचान आयात करें

r = sr. Recognizer() भाषण = sr. Microphone(device_index=1) भाषण के साथ स्रोत के रूप में: प्रिंट ("कुछ कहो! …") ऑडियो = r.adjust_for_ambient_noise (स्रोत) ऑडियो = r.listen (स्रोत) कोशिश करें: recog = r. Recognize_google(audio, language = 'en-US') प्रिंट ("आपने कहा:" + recog) sr को छोड़कर। UnknownValueError: Print ("Google स्पीच रिकॉग्निशन ऑडियो को समझ नहीं सका") sr को छोड़कर। RequestError as e: प्रिंट ("Google वाक् पहचान सेवा से परिणामों का अनुरोध नहीं किया जा सका; {0}.format(e))

डिवाइस इंडेक्स को 1 चुना गया था क्योंकि रीस्पीकर 4 माइक ऐरे मुख्य स्रोत के रूप में होगा।

चरण 3: Pyttsx3 लाइब्रेरी के साथ पायथन में टेक्स्ट-टू-स्पीच

पायथन में टेक्स्ट को स्पीच में बदलने के लिए कई एपीआई उपलब्ध हैं। ऐसे एपीआई में से एक pyttsx3 है, जो मेरी राय में सबसे अच्छा उपलब्ध टेक्स्ट-टू-स्पीच पैकेज है। यह पैकेज विंडोज, मैक और लिनक्स में काम करता है। यह कैसे किया जाता है यह देखने के लिए आधिकारिक दस्तावेज देखें।

पैकेज स्थापित करेंपैकेज को स्थापित करने के लिए पाइप का उपयोग करें।

पाइप स्थापित करें pyttsx3

यदि आप विंडोज़ में हैं, तो आपको एक अतिरिक्त पैकेज, pypiwin32 की आवश्यकता होगी, जिसे इसे मूल विंडोज स्पीच एपीआई तक पहुंचने की आवश्यकता होगी।

पाइप स्थापित pypiwin32

टेक्स्ट को स्पीच में बदलें पायथन स्क्रिप्ट नीचे pyttsx3 का उपयोग करके टेक्स्ट टू स्पीच के लिए कोड स्निपेट है:

आयात pyttsx3

इंजन = pyttsx3.init ()

engine.setProperty('rate', 150) # स्पीड प्रतिशत

engine.setProperty('volume', 0.9) # Volume 0-1

engine.say ("हैलो, वर्ल्ड!")

engine.runAndWait ()

चरण 4: यह सब एक साथ रखना: Google भाषण पहचान API और Pyttsx3 लाइब्रेरी का उपयोग करके पायथन के साथ भाषण पहचान बनाना

नीचे दिया गया कोड Google स्पीच रिकग्निशन का उपयोग करके मानव भाषण को पहचानने और pyttsx3 लाइब्रेरी का उपयोग करके टेक्स्ट को स्पीच में बदलने के लिए जिम्मेदार है।

sr. के रूप में वाक्_पहचान आयात करें

आयात pyttsx3 इंजन = pyttsx3.init () engine.setProperty('rate', 200) engine.setProperty('volume', 0.9) r = sr. Recognizer() भाषण = sr. Microphone(device_index=1) भाषण के साथ स्रोत के रूप में: ऑडियो = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.identize_google(audio, language = 'en-US') print("आपने कहा:" + recog) engine.say(" आपने कहा: "+ recog) engine.runAndWait() sr. UnknownValueError को छोड़कर: engine.say ("Google स्पीच रिकॉग्निशन ऑडियो को समझ नहीं सका") engine.runAndWait() sr. RequestError को छोड़कर e: engine.say("नहीं कर सका Google वाक् पहचान सेवा से अनुरोध परिणाम; {0}.format(e)) engine.runAndWait()

यह टर्मिनल पर आउटपुट प्रिंट करता है। साथ ही इसे भाषण में भी रूपांतरित किया जाएगा।

आपने कहा: लंदन ग्रेट ब्रिटेन की राजधानी है

मुझे आशा है कि अब आपको बेहतर समझ है कि भाषण पहचान सामान्य रूप से कैसे काम करती है और सबसे महत्वपूर्ण बात यह है कि पायथन के साथ Google भाषण पहचान एपीआई का उपयोग करके इसे कैसे कार्यान्वित किया जाए।

यदि आपके कोई प्रश्न या प्रतिक्रिया है? नीचे एक टिप्पणी छोड़ दो। बने रहें!

सिफारिश की:

(आईओटी परियोजना) ईएसपी8266 और ओपनवेदर एपीआई का उपयोग करके मौसम डेटा प्राप्त करें: 5 कदम

(IOT प्रोजेक्ट) ESP8266 और Openweather API का उपयोग करके मौसम डेटा प्राप्त करें: इस निर्देश में हम एक साधारण IOT प्रोजेक्ट बनाने जा रहे हैं, जिसमें openweather.com/api से हमारे शहर का मौसम डेटा प्राप्त करें और इसे प्रोसेसिंग सॉफ़्टवेयर का उपयोग करके प्रदर्शित करें।

चेहरा पहचान और पहचान - ओपनसीवी पायथन और अरुडिनो का उपयोग करके Arduino फेस आईडी .: 6 कदम

चेहरा पहचान और पहचान | ओपनसीवी पायथन और अरुडिनो का उपयोग करते हुए Arduino फेस आईडी: चेहरे की पहचान AKA फेस आईडी आजकल मोबाइल फोन पर सबसे महत्वपूर्ण विशेषताओं में से एक है। तो, मेरा एक प्रश्न था "क्या मेरे पास अपने Arduino प्रोजेक्ट के लिए एक फेस आईडी हो सकता है" और इसका उत्तर हां है… मेरी यात्रा इस प्रकार शुरू हुई: चरण 1: हम तक पहुंच

LM386 का उपयोग करके Arduino टेक्स्ट टू स्पीच कन्वर्टर - बात कर रहे Arduino प्रोजेक्ट - टॉकी अरुडिनो लाइब्रेरी: 5 कदम

LM386 का उपयोग करके Arduino टेक्स्ट टू स्पीच कन्वर्टर | बात कर रहे Arduino प्रोजेक्ट | टॉकी अरुडिनो लाइब्रेरी: हाय दोस्तों, कई प्रोजेक्ट में हमें कुछ बोलने के लिए आर्डिनो की आवश्यकता होती है जैसे घड़ी की बात करना या कुछ डेटा बताना ताकि इस निर्देश में हम अरुडिनो का उपयोग करके टेक्स्ट को भाषण में बदल देंगे

डार्क स्काई एपीआई का उपयोग करके एक मौसम डैशबोर्ड बनाएं: 5 कदम (चित्रों के साथ)

डार्क स्काई एपीआई का उपयोग करके एक मौसम डैशबोर्ड बनाएं: डार्क स्काई मौसम की भविष्यवाणी और विज़ुअलाइज़ेशन में माहिर है। डार्क स्काई का सबसे अच्छा पहलू उनका वेदर एपीआई है जिसका उपयोग हम दुनिया में लगभग कहीं से भी मौसम के आंकड़ों को पुनः प्राप्त करने के लिए कर सकते हैं। यह सिर्फ बारिश या धूप का मौसम नहीं है, बल्कि तापमान

चेहरा पहचान+पहचान: 8 कदम (चित्रों के साथ)

फेस डिटेक्शन + रिकग्निशन: यह एक कैमरे से ओपनसीवी के साथ फेस डिटेक्शन और रिकग्निशन चलाने का एक सरल उदाहरण है। नोट: मैंने इस परियोजना को सेंसर प्रतियोगिता के लिए बनाया है और मैंने कैमरे का उपयोग सेंसर के रूप में ट्रैक और पहचान के लिए किया है। तो, हमारा लक्ष्य इस सत्र में, 1. एनाकोंडा स्थापित करें

Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम

विषयसूची:

वीडियो: Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम

वाक् पहचान

चरण 1: रीस्पीकर यूएसबी 4-माइक ऐरे

चरण 2: आवश्यक पुस्तकालय स्थापित करें

चरण 3: Pyttsx3 लाइब्रेरी के साथ पायथन में टेक्स्ट-टू-स्पीच

चरण 4: यह सब एक साथ रखना: Google भाषण पहचान API और Pyttsx3 लाइब्रेरी का उपयोग करके पायथन के साथ भाषण पहचान बनाना

सिफारिश की:

(आईओटी परियोजना) ईएसपी8266 और ओपनवेदर एपीआई का उपयोग करके मौसम डेटा प्राप्त करें: 5 कदम

चेहरा पहचान और पहचान - ओपनसीवी पायथन और अरुडिनो का उपयोग करके Arduino फेस आईडी .: 6 कदम

LM386 का उपयोग करके Arduino टेक्स्ट टू स्पीच कन्वर्टर - बात कर रहे Arduino प्रोजेक्ट - टॉकी अरुडिनो लाइब्रेरी: 5 कदम

डार्क स्काई एपीआई का उपयोग करके एक मौसम डैशबोर्ड बनाएं: 5 कदम (चित्रों के साथ)

चेहरा पहचान+पहचान: 8 कदम (चित्रों के साथ)

Wemos D1 मिनी तापमान / आर्द्रता निगरानी: 3 चरण

सड़क निगरानी: 15 कदम

क्लेरिनएडी: 5 कदम

पुरानी डिजिटल घड़ी का उपयोग करके स्वचालित पालतू फीडर: 10 कदम (चित्रों के साथ)

Kicad से शुरू करें - स्कीमैटिक्स के चिह्नों को PCB फुटप्रिंट असाइन करें: 9 चरण

मेगा केबल परीक्षक: 4 कदम

फोटोरेसिस्ट पेंट और यूवी का उपयोग करके पीसीबी बनाना: 7 कदम (चित्रों के साथ)

AVR विकास बोर्ड: 3 कदम

[होम ऑटोमेशन] ESP8266 + Blynk का उपयोग करके हर जगह से नियंत्रण रिले: 4 कदम

केंद्र अनुभाग संशोधित करें: 5 चरण (चित्रों के साथ)

स्टीरियो से मोनो ऑडियो केबल: 4 कदम

एन्क्रिप्टेड फ़ाइल आंदोलन: 7 कदम

पोर्टेबल एमपी३ औक्स संगीत बॉक्स: २३ कदम (चित्रों के साथ)

विजन फिजेट स्पिनर की दृढ़ता: 8 कदम (चित्रों के साथ)

त्वरित और आसान वॉल माउंट पीसी: 8 कदम

LM317 का उपयोग करके DIY चर बिजली की आपूर्ति: 6 कदम