विषयसूची:

Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम
Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम

वीडियो: Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम

वीडियो: Google स्पीच एपीआई और पायथन का उपयोग करके वाक् पहचान: 4 कदम
वीडियो: वास्तविक समय भाषण मान्यता | Google API का उपयोग करके भाषण के लिए भाषण | भाषण मान्यता शोर में कमी 2024, जुलाई
Anonim
Google भाषण एपीआई और पायथन का उपयोग करके वाक् पहचान
Google भाषण एपीआई और पायथन का उपयोग करके वाक् पहचान

वाक् पहचान

वाक् पहचान प्राकृतिक भाषा प्रसंस्करण का एक हिस्सा है जो आर्टिफिशियल इंटेलिजेंस का एक उपक्षेत्र है। सीधे शब्दों में कहें तो, वाक् पहचान एक कंप्यूटर सॉफ्टवेयर की बोली जाने वाली भाषा में शब्दों और वाक्यांशों की पहचान करने और उन्हें मानव पठनीय पाठ में बदलने की क्षमता है। इसका उपयोग कई अनुप्रयोगों जैसे वॉयस असिस्टेंट सिस्टम, होम ऑटोमेशन, वॉयस आधारित चैटबॉट, वॉयस इंटरेक्टिंग रोबोट, आर्टिफिशियल इंटेलिजेंस और आदि में किया जाता है।

भाषण को पहचानने के लिए अलग-अलग एपीआई (एप्लिकेशन प्रोग्रामिंग इंटरफेस) हैं। वे या तो मुफ्त या सशुल्क सेवाएं प्रदान करते हैं। य़े हैं:

  • सीएमयू स्फिंक्स
  • गूगल वाक् पहचान
  • Google क्लाउड स्पीच API
  • बुद्धि.एआई
  • माइक्रोसॉफ्ट बिंग वॉयस रिकग्निशन
  • हाउंडीफाई एपीआई
  • पाठ के लिए आईबीएम भाषण
  • स्नोबॉय हॉटवर्ड डिटेक्शन

हम यहां Google स्पीच रिकग्निशन का उपयोग करेंगे, क्योंकि इसके लिए किसी API कुंजी की आवश्यकता नहीं है। इस ट्यूटोरियल का उद्देश्य सीड स्टूडियो से रीस्पीकर यूएसबी 4-माइक ऐरे जैसे बाहरी माइक्रोफोन की मदद से पायथन पर Google स्पीच रिकग्निशन लाइब्रेरी का उपयोग करने के तरीके पर एक परिचय प्रदान करना है। हालांकि बाहरी माइक्रोफोन का उपयोग करना अनिवार्य नहीं है, यहां तक कि लैपटॉप के बिल्ट-इन माइक्रोफोन का भी उपयोग किया जा सकता है।

चरण 1: रीस्पीकर यूएसबी 4-माइक ऐरे

रीस्पीकर यूएसबी 4-माइक ऐरे
रीस्पीकर यूएसबी 4-माइक ऐरे
रीस्पीकर यूएसबी 4-माइक ऐरे
रीस्पीकर यूएसबी 4-माइक ऐरे
रीस्पीकर यूएसबी 4-माइक ऐरे
रीस्पीकर यूएसबी 4-माइक ऐरे

रीस्पीकर यूएसबी माइक एक क्वाड-माइक्रोफोन डिवाइस है जिसे एआई और वॉयस एप्लिकेशन के लिए डिज़ाइन किया गया है, जिसे सीड स्टूडियो द्वारा विकसित किया गया था। इसमें 4 उच्च प्रदर्शन, अंतर्निहित सर्वव्यापी माइक्रोफ़ोन हैं जो कमरे में कहीं से भी आपकी आवाज़ उठाने के लिए डिज़ाइन किए गए हैं और 12 प्रोग्राम करने योग्य आरजीबी एलईडी संकेतक हैं। रीस्पीकर यूएसबी माइक लिनक्स, मैकओएस और विंडोज ऑपरेटिंग सिस्टम को सपोर्ट करता है। विवरण यहां पाया जा सकता है।

रीस्पीकर यूएसबी माइक निम्नलिखित मदों वाले एक अच्छे पैकेज में आता है:

  • एक उपयोगकर्ता गाइड
  • रीस्पीकर यूएसबी माइक ऐरे
  • माइक्रो यूएसबी से यूएसबी केबल

तो हम आरंभ करने के लिए तैयार हैं।

चरण 2: आवश्यक पुस्तकालय स्थापित करें

इस ट्यूटोरियल के लिए, मुझे लगता है कि आप Python 3.x का उपयोग कर रहे हैं।

आइए पुस्तकालयों को स्थापित करें:

pip3 स्पीच रिकॉग्निशन स्थापित करें

MacOS के लिए, पहले आपको Homebrew के साथ PortAudio स्थापित करना होगा, और फिर PyAudio को pip3 के साथ स्थापित करना होगा:

काढ़ा स्थापित करें portaudio

हम pyaudio स्थापित करने के लिए कमांड के नीचे चलाते हैं

pip3 pyaudio स्थापित करें

लिनक्स के लिए, आप उपयुक्त के साथ PyAudio स्थापित कर सकते हैं:

sudo apt-पायथन-प्यूडियो स्थापित करें python3-pyaudio

Windows के लिए, आप PyAudio को pip के साथ स्थापित कर सकते हैं:

पाइप स्थापित pyaudio

एक नई पायथन फ़ाइल बनाएँ

नैनो get_index.py

get_index.py पर कोड स्निपेट के नीचे पेस्ट करें:

ऑडियो आयात करें

p = pyaudio. PyAudio() जानकारी = p.get_host_api_info_by_index(0)numdevices = info.get('deviceCount') मेरे लिए रेंज में (0, numdevices): अगर (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels) '))> 0: प्रिंट ("इनपुट डिवाइस आईडी ", i," - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))

निम्न आदेश चलाएँ:

python3 get_index.py

मेरे मामले में, कमांड स्क्रीन पर निम्न आउटपुट देता है:

इनपुट डिवाइस आईडी 1 - रीस्पीकर 4 माइक ऐरे (UAC1.0)

इनपुट डिवाइस आईडी 2 - मैकबुक एयर माइक्रोफोन

नीचे दिए गए कोड स्निपेट में अपनी पसंद के अनुसार डिवाइस_इंडेक्स को इंडेक्स नंबर में बदलें।

sr. के रूप में वाक्_पहचान आयात करें

r = sr. Recognizer() भाषण = sr. Microphone(device_index=1) भाषण के साथ स्रोत के रूप में: प्रिंट ("कुछ कहो! …") ऑडियो = r.adjust_for_ambient_noise (स्रोत) ऑडियो = r.listen (स्रोत) कोशिश करें: recog = r. Recognize_google(audio, language = 'en-US') प्रिंट ("आपने कहा:" + recog) sr को छोड़कर। UnknownValueError: Print ("Google स्पीच रिकॉग्निशन ऑडियो को समझ नहीं सका") sr को छोड़कर। RequestError as e: प्रिंट ("Google वाक् पहचान सेवा से परिणामों का अनुरोध नहीं किया जा सका; {0}.format(e))

डिवाइस इंडेक्स को 1 चुना गया था क्योंकि रीस्पीकर 4 माइक ऐरे मुख्य स्रोत के रूप में होगा।

चरण 3: Pyttsx3 लाइब्रेरी के साथ पायथन में टेक्स्ट-टू-स्पीच

पायथन में टेक्स्ट को स्पीच में बदलने के लिए कई एपीआई उपलब्ध हैं। ऐसे एपीआई में से एक pyttsx3 है, जो मेरी राय में सबसे अच्छा उपलब्ध टेक्स्ट-टू-स्पीच पैकेज है। यह पैकेज विंडोज, मैक और लिनक्स में काम करता है। यह कैसे किया जाता है यह देखने के लिए आधिकारिक दस्तावेज देखें।

पैकेज स्थापित करेंपैकेज को स्थापित करने के लिए पाइप का उपयोग करें।

पाइप स्थापित करें pyttsx3

यदि आप विंडोज़ में हैं, तो आपको एक अतिरिक्त पैकेज, pypiwin32 की आवश्यकता होगी, जिसे इसे मूल विंडोज स्पीच एपीआई तक पहुंचने की आवश्यकता होगी।

पाइप स्थापित pypiwin32

टेक्स्ट को स्पीच में बदलें पायथन स्क्रिप्ट नीचे pyttsx3 का उपयोग करके टेक्स्ट टू स्पीच के लिए कोड स्निपेट है:

आयात pyttsx3

इंजन = pyttsx3.init ()

engine.setProperty('rate', 150) # स्पीड प्रतिशत

engine.setProperty('volume', 0.9) # Volume 0-1

engine.say ("हैलो, वर्ल्ड!")

engine.runAndWait ()

चरण 4: यह सब एक साथ रखना: Google भाषण पहचान API और Pyttsx3 लाइब्रेरी का उपयोग करके पायथन के साथ भाषण पहचान बनाना

नीचे दिया गया कोड Google स्पीच रिकग्निशन का उपयोग करके मानव भाषण को पहचानने और pyttsx3 लाइब्रेरी का उपयोग करके टेक्स्ट को स्पीच में बदलने के लिए जिम्मेदार है।

sr. के रूप में वाक्_पहचान आयात करें

आयात pyttsx3 इंजन = pyttsx3.init () engine.setProperty('rate', 200) engine.setProperty('volume', 0.9) r = sr. Recognizer() भाषण = sr. Microphone(device_index=1) भाषण के साथ स्रोत के रूप में: ऑडियो = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.identize_google(audio, language = 'en-US') print("आपने कहा:" + recog) engine.say(" आपने कहा: "+ recog) engine.runAndWait() sr. UnknownValueError को छोड़कर: engine.say ("Google स्पीच रिकॉग्निशन ऑडियो को समझ नहीं सका") engine.runAndWait() sr. RequestError को छोड़कर e: engine.say("नहीं कर सका Google वाक् पहचान सेवा से अनुरोध परिणाम; {0}.format(e)) engine.runAndWait()

यह टर्मिनल पर आउटपुट प्रिंट करता है। साथ ही इसे भाषण में भी रूपांतरित किया जाएगा।

आपने कहा: लंदन ग्रेट ब्रिटेन की राजधानी है

मुझे आशा है कि अब आपको बेहतर समझ है कि भाषण पहचान सामान्य रूप से कैसे काम करती है और सबसे महत्वपूर्ण बात यह है कि पायथन के साथ Google भाषण पहचान एपीआई का उपयोग करके इसे कैसे कार्यान्वित किया जाए।

यदि आपके कोई प्रश्न या प्रतिक्रिया है? नीचे एक टिप्पणी छोड़ दो। बने रहें!

सिफारिश की: