حينما حاولت عملاقة التكنولوجيا الصينية بايدو العام الماضي استنساخ الأصوات البشرية عبر توفير معلومات عن صوت الشخص المستنسخ للذكاء الاصطناعي، استغرق الأمر 30 دقيقة من التسجيلات الصوتية لكل شخص.
أما الآن أصبح في الإمكان استنساخ الأصوات بعد توفير معلومات صوتية عنها في تسجيل لا يتعدى 3.7 ثانية، وهو ما يعد تطوراً كبيراً وهاماً في تكنولوجيا استنساخ الأصوات بواسطة الذكاء الاصطناعي.
كذلك أصبحت التكنولوجيا قادرة على تعديل الجنس واللكنات وطريقة الكلام على حسب المتحدث.
وكشفت شركة غوغل النقاب عن Tacotron 2 وهو نظام لتحويل النصوص المكتوبة إلى أصوات، ويستفيد هذا النظام من التمثيل المرئي للصوت المسمّى الطيفي لتوليد الأصوات ويستخدم لتوليد الأصوات لـGoogle Assistant.
وتصعّب تلك التقنيات من عملية التفرقة بين الأصوات المولدة بواسطة الذكاء الاصطناعي والأصوات الحقيقية، بل تجعلها مستحيلة في كثير من الأحيان وذلك بعد تطوير الخوارزميات لكيفية نطق الكلمات والأسماء الصعبة.
كل هذه التطورات العلمية تعني أن تلك التكنولوجية يمكن استخدامها – كغيرها – في تضليل والمزج بين ما هو حقيقي وما هو افتراضي بغرض التزييف.
ويبدو أنه لا مفر من زيادة وعي الناس بتلك التكنولوجية حتى يمكن تفادي مخاطر إساءة استخدامها.
ويكمن الخوف الحقيقي من دفع الناس على التصرف طبقاً لأصوات يسمعوها ويعتقدون أنها حقيقية بينما هي نتاج للذكاء الاصطناعي.
ولا يزال البحث جارياً عن حل تقني للوقاية من مخاطر هذا الاستنساخ وهو ما يعني أن التقدير الشخصي سيبقى الملاذ الوحيد لتحديد نوعية الصوت الذي نسمعه والتحقق من مصدره وصحته.
المصدر : https://wp.me/p70vFa-wad