chehre

एक नया ऑडियो सिस्टम उन स्मार्ट उपकरणों को भ्रमित करता है जो सुनने की कोशिश करते हैं

इसका एल्गोरिथ्म गोपनीयता की रक्षा के लिए स्वचालित वाक्-पहचान प्रणाली के साथ खिलवाड़ करता है

रहस्य केवल नासमझ भाई-बहन या सहपाठी ही नहीं, बल्कि स्मार्ट उपकरणों को छिपाने का शिकार हो सकते हैं। एक नया ऑडियो सिस्टम गोपनीयता की बेहतर सुरक्षा में मदद कर सकता है।

Capuski/E+/Getty Images Plus

आप उन्हें सिरी या एलेक्सा के नाम से जानते होंगे। डब्ड पर्सनल असिस्टेंट, ये स्मार्ट डिवाइस चौकस श्रोता हैं। बस कुछ शब्द कहें, और वे एक पसंदीदा गाना बजाएंगे या निकटतम गैस स्टेशन तक ले जाएंगे। लेकिन यह सब सुनने से निजता को खतरा होता है। लोगों को छिपकर सुनने वाले उपकरणों से खुद को बचाने में मदद करने के लिए, एक नई प्रणाली नरम, परिकलित ध्वनियां बजाती है। यह उपकरणों को भ्रमित करने के लिए बातचीत को मास्क करता है।

मिया चिक्वियर कोलंबिया विश्वविद्यालय में स्नातक की छात्रा हैं। वह कार्ल वोंड्रिक द्वारा संचालित एक कंप्यूटर साइंस रिसर्च लैब में काम करती हैं।मिया चिकिएर

मिया चिक्वियर बताते हैं कि स्मार्ट डिवाइस ध्वनि तरंगों को टेक्स्ट में अनुवाद करने के लिए स्वचालित भाषण-पहचान - या एएसआर - का उपयोग करते हैं। वह न्यूयॉर्क शहर में कोलंबिया विश्वविद्यालय में कंप्यूटर विज्ञान की पढ़ाई करती है। नया कार्यक्रम आपके भाषण के साथ अलग-अलग ध्वनि तरंगों को चलाकर एएसआर को मूर्ख बनाता है। वे अतिरिक्त तरंगें एक ध्वनि संकेत को गड़गड़ाहट करती हैं जिससे ASR के लिए आपके भाषण की ध्वनियों को चुनना मुश्किल हो जाता है। यह "इस ट्रांसक्रिप्शनिंग सिस्टम को पूरी तरह से भ्रमित करता है," चिक्वियर कहते हैं।

वह और उनके सहयोगी अपनी नई प्रणाली को "आवाज छलावरण" के रूप में वर्णित करते हैं।

मास्किंग ध्वनियों की मात्रा महत्वपूर्ण नहीं है। दरअसल, ये आवाजें शांत होती हैं। Chiquier उन्हें पृष्ठभूमि में एक छोटे एयर कंडीशनर की आवाज़ से तुलना करता है। वह कहती हैं कि उन्हें प्रभावी बनाने की चाल इन तथाकथित "हमले" ध्वनि तरंगों को किसी के कहने के साथ फिट बैठती है। काम करने के लिए, सिस्टम उन ध्वनियों की भविष्यवाणी करता है जो कोई भविष्य में थोड़े समय के लिए कहेगा। फिर यह उन शब्दों की स्मार्ट स्पीकर की व्याख्या को भ्रमित करने के लिए चुनी गई ध्वनियों को चुपचाप प्रसारित करता है।

Chiquier ने 25 अप्रैल को वर्चुअल इंटरनेशनल कॉन्फ्रेंस फॉर लर्निंग रिप्रेजेंटेशन में इसका वर्णन किया।

तुम्हें समझ रहा हूं

शानदार वॉयस कैमो बनाने में पहला कदम: स्पीकर को जानें।

यदि आप बहुत अधिक पाठ करते हैं, तो आपका स्मार्टफोन यह अनुमान लगाना शुरू कर देगा कि संदेश में अगले कुछ अक्षर या शब्द क्या होंगे। यह इस बात की भी आदत हो जाती है कि आप किस प्रकार के संदेश भेजते हैं और आपके द्वारा उपयोग किए जाने वाले शब्द। नया एल्गोरिदम लगभग उसी तरह काम करता है।

"हमारा सिस्टम आपके भाषण के अंतिम दो सेकंड को सुनता है," चिक्वियर बताते हैं। "उस भाषण के आधार पर, यह उन ध्वनियों का अनुमान लगाता है जो आप भविष्य में कर सकते हैं।" और न केवल भविष्य में, बल्कि आधे सेकेंड बाद। यह भविष्यवाणी आपकी आवाज की विशेषताओं और आपकी भाषा के पैटर्न पर आधारित है। ये डेटा एल्गोरिथम को सीखने और गणना करने में मदद करते हैं कि टीम भविष्य कहनेवाला हमला क्या कहती है।

यह हमला उस ध्वनि के बराबर है जो सिस्टम स्पीकर के शब्दों के साथ बजाता है। और यह प्रत्येक ध्वनि के साथ बदलता रहता है जो कोई बोलता है। जब हमला एल्गोरिथम द्वारा भविष्यवाणी किए गए शब्दों के साथ खेलता है, तो संयुक्त ध्वनि तरंगें एक ध्वनिक मिशमाश में बदल जाती हैं जो ईयरशॉट के भीतर किसी भी एएसआर सिस्टम को भ्रमित करती है।

चिक्वियर कहते हैं, एएसआर सिस्टम के लिए भविष्य कहनेवाला हमले भी कठिन हैं। उदाहरण के लिए, यदि किसी ने पृष्ठभूमि में एकल ध्वनि चलाकर ASR को बाधित करने का प्रयास किया, तो डिवाइस उस शोर को वाक् ध्वनियों से घटा सकता है। यह सच है भले ही समय के साथ मास्किंग ध्वनि समय-समय पर बदल जाए।

इसके बजाय नई प्रणाली एक स्पीकर द्वारा अभी-अभी कही गई बातों के आधार पर ध्वनि तरंगें उत्पन्न करती है। तो इसके हमले की आवाज लगातार बदल रही है - और अप्रत्याशित तरीके से। चिक्वियर के अनुसार, इससे "[एएसआर डिवाइस] के खिलाफ बचाव करना बहुत मुश्किल हो जाता है।"

कार्रवाई में हमले

अपने एल्गोरिदम का परीक्षण करने के लिए, शोधकर्ताओं ने वास्तविक जीवन की स्थिति का अनुकरण किया। उन्होंने औसत स्तर के पृष्ठभूमि शोर वाले कमरे में अंग्रेजी बोलने वाले किसी व्यक्ति की रिकॉर्डिंग चलाई। एक एएसआर डिवाइस ने जो कुछ सुना उसे सुना और ट्रांसक्रिप्ट किया। पृष्ठभूमि में सफेद शोर जोड़ने के बाद टीम ने इस परीक्षण को दोहराया। अंत में, टीम ने अपने वॉयस-मास्किंग सिस्टम के साथ ऐसा किया।

आवाज-छलावरण एल्गोरिथ्म ने एएसआर को 80 प्रतिशत समय तक सही ढंग से शब्दों को सुनने से रोक दिया। "द" और "हमारा" जैसे सामान्य शब्द मुखौटा के लिए सबसे कठिन थे। लेकिन उन शब्दों में बहुत अधिक जानकारी नहीं होती है, शोधकर्ताओं ने कहा। उनकी प्रणाली सफेद शोर की तुलना में बहुत अधिक प्रभावी थी। इसने पृष्ठभूमि शोर को घटाने के लिए डिज़ाइन किए गए ASR सिस्टम के विरुद्ध भी अच्छा प्रदर्शन किया।

चिक्वियर कहते हैं, एल्गोरिदम किसी दिन वास्तविक दुनिया में उपयोग के लिए एक ऐप में एम्बेड किया जा सकता है। यह सुनिश्चित करने के लिए कि ASR सिस्टम मज़बूती से नहीं सुन सकता, "आप बस ऐप खोलेंगे," वह कहती हैं। "यह इसके बारे में।" सिस्टम को ध्वनि उत्सर्जित करने वाले किसी भी उपकरण में जोड़ा जा सकता है।

हालाँकि, यह चीजों से थोड़ा आगे हो रहा है। इसके बाद और परीक्षण आता है।

भिक्षा राज कहती हैं कि यह "अच्छा काम" है। वह पिट्सबर्ग, पा में कार्नेगी मेलॉन विश्वविद्यालय में एक इलेक्ट्रिकल और कंप्यूटर इंजीनियर हैं। वह इस शोध में शामिल नहीं थे। लेकिन वह यह भी अध्ययन करता है कि कैसे लोग अपने भाषण और आवाज की गोपनीयता की रक्षा के लिए प्रौद्योगिकी का उपयोग कर सकते हैं।

स्मार्ट डिवाइस वर्तमान में नियंत्रित करते हैं कि उपयोगकर्ता की आवाज और बातचीत कैसे सुरक्षित है, राज कहते हैं। लेकिन उनका मानना ​​है कि इसके बजाय नियंत्रण इस पर छोड़ देना चाहिए कि कौन बोल रहा है।

"आवाज के बहुत सारे पहलू हैं," राज बताते हैं। शब्द एक पहलू हैं। लेकिन एक आवाज में अन्य व्यक्तिगत जानकारी भी हो सकती है, जैसे किसी का उच्चारण, लिंग, स्वास्थ्य, भावनात्मक स्थिति या शारीरिक आकार। कंपनियां अलग-अलग सामग्री, विज्ञापनों या मूल्य निर्धारण वाले उपयोगकर्ताओं को लक्षित करके उन सुविधाओं का संभावित रूप से फायदा उठा सकती हैं। वे दूसरों को आवाज की जानकारी भी बेच सकते थे, वे कहते हैं।

जब आवाज की बात आती है, "यह पता लगाना एक चुनौती है कि हम इसे कैसे अस्पष्ट कर सकते हैं," राज कहते हैं। "लेकिन हमें इसके कम से कम कुछ हिस्सों पर कुछ नियंत्रण रखने की आवश्यकता है।"

से अधिक कहानियांछात्रों के लिए विज्ञान समाचारपरतकनीक