همگام سازی در گفتار بین فردی

  • 2022-12-26

این مقاله دسترسی باز تحت شرایط مجوز کریتیو کامنز انتساب توزیع شده است (سی سی توسط). استفاده, توزیع یا تولید مثل در سایر انجمن ها مجاز است, به شرطی که نویسنده(بازدید کنندگان) اصلی و صاحب کپی رایت(بازدید کنندگان) اعتبار و که انتشار اصلی در این مجله استناد شده است, مطابق با عمل علمی پذیرفته شده. بدون استفاده, توزیع و یا تولید مثل مجاز است که با این شرایط منطبق نیست.

داده های مرتبط

مجموعه داده مورد تجزیه و تحلیل برای این مطالعه, سیوا, یک مجموعه داده عمومی است و می تواند تحت لینک زیر پیدا شده است: https://db. sewaproject. eu/.

چکیده

در طول هر دو تبادل دوگانه مثبت و منفی افراد اغلب بیهوش از شریک زندگی خود تقلید می کنند. تحقیقات قابل توجهی در مورد این پدیده انجام شده است و چنین مطالعاتی نشان داده است که همگام سازی بین شرکای ارتباطی می تواند روابط بین فردی را بهبود بخشد. رویکردهای محاسباتی خودکار برای تشخیص همگام سازی هنوز در مراحل ابتدایی هستند. در این پژوهش روش جدیدی را با استفاده از توصیفگرهای صوتی سطح پایین و خودکار رمزگذارهای دستی برای تحلیل سنکرون در حوزه گفتار به کار گرفتیم. برای این منظور از یک پایگاه داده متشکل از 394 سخنران در طبیعت از شش فرهنگ مختلف استفاده شده است. برای هر سخنران در تبادل دوگانه, دو ارزیابی عملکرد اجرا می شوند. ویژگی های صوتی برای یکی از سخنرانان با استفاده از هوش مصنوعی بر روی شریک زندگی خود تست شده است. در این راه همان, ما نیز کشف مزایای که بازنمایی عمیق از صوتی ممکن است, اجرای دولت از هنر طیف عمیق ابزار. برای همه سخنرانان در نقاط زمانی متنوع در طول تعاملشان محاسبه خطای بازسازی از طرف شریک دوگانه مربوطه انجام می شود. نتایج حاصل از این تحلیل صوتی سپس با تجربیات زبانی بر اساس شمارش کلمات و تعبیه کلمات تولید شده توسط رویکرد واژه2 ولت مقایسه می شود. نتایج نشان می دهد که در تمام تعاملات درجه ای از همگام سازی وجود دارد. ما همچنین دریافتیم که این درجه در 6 فرهنگ موجود در پایگاه داده مورد بررسی متفاوت است. این یافته ها بیشتر از طریق استفاده از ویژگی های طیف عمیق بعدی 4,096 اثبات شده است.

کلمات کلیدی: همگام سازی گفتار, تعامل انسان و انسان, فرازبانشناسی محاسباتی, یادگیری ماشین, پردازش گفتار, خودکار رمزگذاران

1. مقدمه

نشان داده شده است که در طول یک تعامل دوگانه انسان و انسان, اصحاب اغلب سبک های ارتباطی خود را با شریک زندگی خود را همگام سازی. این همزمانی نه تنها در سطح زبانی مانند هم ترازی نحوی اتفاق می افتد (گریس, 2005; دیل و اسپیوی, 2006; برانیگان و همکاران., 2010), بلکه در سراسر حالت رخ می دهد, با شرکای تغییر وضعیت خود (شفلن, 1964), بیان صورت (بلیری و همکاران., 1999), و همچنین نشانه های کلامی (چارتراند و برق, 1999)—یک موضوع است که یک منطقه مورد علاقه در زمینه های شده, از جمله روانشناسی (لیکوفسکی و همکاران., 2012) و علوم اعصاب (سیبت و همکاران., 2015; ریمارسیک و همکاران., 2018).

تغییر در رابطه بین شرکا یک نتیجه در رابطه با رفتارهای همزمان است و می تواند به عنوان یک جنبه بین فردی از یک تبادل دوگانه معین توصیف شود که هر دو طرف مثبت را تجربه می کنند (غلغلک دادن-دگنن و روزنتال, 1990). از اوایل تحقیقات در زمینه روانشناسی افزایش رابطه از فعل و انفعالات رخ داده در هماهنگی وضعیت بدن مشاهده شد (لافرانس, 1979). با این حال, با توجه به پیچیدگی ذاتی رفتار انسان, اندازه گیری هماهنگی تعامل به عنوان یک شاخص از تفاهم یک چالش قابل توجهی برای محققان مطرح (برنیری و همکاران., 1994). با این اوصاف, در تحقیقات روانشناسی اجتماعی غیر تهاجمی اندازه گیری هماهنگی بین فردی, که می تواند بدون اطلاع از شرکت کنندگان انجام, نشان می دهد پتانسیل زیادی برای تجزیه و تحلیل تعامل انسان (برنیری و همکاران., 1994).

پیکرینگ و گارود یک مدل مکانیکی از پردازش زبان در طی یک گفتگو (پیکرینگ و گارود, 2004). حساب تراز تعاملی خود را توضیح می دهد که چگونه مخاطبان به طور خودکار بازنمایی زبانی خود را در سطوح مختلف همگام سازی, از نحو به معناشناسی و فونتیک. این استدلال می کند که هم ترازی در یک سطح همچنین باعث افزایش هم ترازی در سطوح دیگر از طریق مکانیزم هایی مانند روتین سازی می شود (یعنی ایجاد عبارات نیمه ثابت که معانی خاص را رمزگذاری می کنند). در سال های اخیر رویکردهای تست تقلید (سنکرون) به عنوان ابزاری برای افزایش ارتباط در زمینه تعامل ربات های انسانی (ریک و همکاران) رواج یافته است., 2010; لی و هاشیموتو, 2011). والدسولو و همکاران. تجزیه و تحلیل تاثیر هماهنگی در افرادی که به دنبال اهداف مشترک (والدسولو و همکاران., 2010). نویسندگان نشان دادند که همگام سازی در حرکات بدن می تواند حساسیت ادراکی افراد را نسبت به حرکات افراد دیگر افزایش دهد و بنابراین می تواند موفقیت خود را در یک کار مشارکتی زیر افزایش دهد که نیاز به توانایی پاسخ مناسب به جنبش شریک (والدسولو و همکاران) دارد., 2010). علاوه بر این بحث شد که موفقیت در دستیابی به اهداف مشترک ناشی از افزایش حس روحیه جمعی است و این همزمانی همچنین می تواند توانایی همکاری را پیش بینی کند (والدسولو و همکاران., 2010).

قبلا مطالعات در زمینه تشخیص همزمان خودکار تا حد زیادی از حوزه بینایی (میشلت و همکاران) انجام شده است., 2012), برخی از رفتارهای که ارزیابی مانند نرخ گره سر, و خندان (خورشید و همکاران., 2011 الف; بیلاخیا و همکاران., 2013). برای این مطالعه, ما در سیگنال های صوتی تمرکز, همانطور که نشان داده شده است که گذشته از زبان بدن, شرکای علاوه بر سبک گفتار خود را نسبت به شریک زندگی خود را تغییر خواهد کرد (گیلز, 1973; گیلز و همکاران., 1987).

اگرچه کارهای قبلی مشابهی در این زمینه وجود دارد (بردیچکا و همکاران., 2005; بورگون و هوبارد, 2005), ما برای اولین بار یک رویکرد مبتنی بر صوتی برای ارزیابی سبک های ارتباطی فردی برای پدیده همگام سازی دوگانه در سراسر یک گروه گسترده ای از فرهنگ پیشنهاد (هان و همکاران., 2018). ابتدا سعی می کنیم یک روش مرسوم با نیروی بی رحم را در نظر بگیریم که توصیفگرهای سطح پایین مانند انرژی ورود به سیستم و زمین را برای اندازه گیری شباهت ها در چرخش های گفتاری استخراج کنیم و در نتیجه موفقیت محدودی (هان و همکاران) داشته باشیم., 2018). برای کشف یک رویکرد پیشرفته یادگیری ماشین برای این کار یک چارچوب مبتنی بر خودکار رمزگذار پیاده سازی شده است. این چارچوب شامل دو خودکار رمزگذار است که هر کدام به ترتیب بر روی گفتار یکی از شرکای ارتباطی موضوع الف و ب تربیت می شوند. پس از اتمام تمرین, زیر مجموعه داده ها سپس روشن, و تغذیه به متغیر مخالف. در انتخاب این رویکرد فرض می کنیم که وقتی یک موضوع به شیوه ای هماهنگ تر رفتار می کند باید خطای بازسازی ویژگی های شریک ارتباطی خود را در طول زمان کاهش دهد. در مقایسه با سایر روش های محاسباتی پیشرفته برای یادگیری بدون نظارت, به عنوان مثال, شبکه های خصمانه مولد, هوش مصنوعی نسبتا ساده تربیت می شوند و ابر پارامترها را انتخاب می کنند.

در بخش بعدی کار مربوطه هم از منظر جامعه شناختی و هم از نظر فنی خلاصه می شود. سپس مجموعه داده های چند فرهنگی و ویژگی های طیف صوتی و صوتی استخراج شده مورد استفاده در تحقیقات ما را توصیف می کنیم. در بخش 4 شباهت های رفتاری دیاد ها را تحلیل می کنیم و تنظیمات تجربی را توضیح می دهیم و در مورد یافته هایمان بحث می کنیم. سپس در بخش 5 به تحلیل رفتار زبانی میپردازیم و نتایج را با نتایج حاصل از رویکرد صوتی خود قبل از نتیجه گیری مقاله در بخش 6 مقایسه میکنیم.

2. کار مرتبط

رفتار همزمان (اغلب به عنوان تقلید اشاره), می تواند نقش مهمی به عنوان یک مکانیسم سرایت عاطفی بازی (هتفیلد و همکاران. 1993) یعنی پدیده واکنش عاطفی فرد برای فعال کردن احساسات مشابه در شریک زندگی خود., و هم احساسات است-و یا مبتنی بر موتور (هس و فیشر, 2013). همزمانی عاطفی تغییر در حالات عاطفی مانند شادی یا عصبانیت است و همزمانی مبتنی بر موتور به تغییرات فیزیکی مانند حالت چهره یا موقعیت دست ها اشاره دارد اگرچه ادبیاتی نیز وجود دارد که نشان می دهد بیان صوتی اغلب یک عمل حرکتی بیهوش است (مک گتیگان, 2015). از دو, هماهنگی مبتنی بر موتور یک جنبه به طور موثر تر ردیابی است, به عنوان یک مولفه شی است که می تواند توسط یک ناظر انسانی طبقه بندی وجود دارد, متعاقبا نشان دادن دقت بهبود یافته برای روش های خودکار مانند تشخیص وضعیت بدن (هو و همکاران., 2016).

در اواخر دهه 1970 سیستم کدگذاری عمل صورت (اکمن و فریسن 1978) بر اساس واحدهای به اصطلاح عمل صورت (فوس) توصیف کننده 44 فعال سازی صورت برای اولین بار پیشنهاد شد. از این زمان فاووس برای مجموعه ای از کارهای محاسباتی استفاده شده است (قیصر و وهرل, 1992; تیان و همکاران., 2001; جیسوال و والستار, 2016). هنگام ترکیب فعال فاوس حالات مختلف صورت را می توان با رابطه قوی بین ترکیبات معمولی فاو ایجاد کرد, مثلا, اخم کردن, یا لبخند زدن, و حالت عاطفی فرد (اکمن و فریسن, 2003). نشان داده شده است که این ترکیبات مستقل از فرهنگ هستند (اکمن و فریسن, 2003) و می توان با استفاده از ابزارهای پیشرفته مانند معروف استخراج کرد قلم اف ای (بالترو ارماییتس و همکاران., 2016).

به طور کلی همکاران به احتمال زیاد نشان می دهد هماهنگی صفات مانند حرکات و وضعیت, از شریک زندگی خود, نزدیکتر به پایان یک مکالمه (چارتراند و برق, 1999; دلاهرش و همکاران., 2012). همگام سازی مبتنی بر موتور می تواند به عنوان یک ابزار قانع کننده در طول مبادله انسان به انسان اعمال, به طور خاص زمانی که از جمله تقلید از شرکای نظر گفتاری (هس و فیشر, 2013). انسان ها از هر دو کانال شنیداری و دیداری در معرض این رفتار هستند (پاریل و کیمبارا, 2006). برای این منظور, اگر چه شواهدی از شرکای ارتباطی هماهنگ سازی زمانی که موافق نیستند وجود دارد, است عوامل شایع تر از هماهنگی زمانی که شرکای بحث در مورد یک موضوع مشترک که نظر مشابهی دارند وجود دارد (خورشید و همکاران., 2011 الف).

از نظر محاسباتی رویکردهای تشخیص خودکار برای رفتار سنکرون مبتنی بر موتور متنوع است. یک مدل رگرسیون مبتنی بر زمان که از حافظه کوتاه مدت شبکه های عصبی راجعه استفاده می کند به عنوان یک روش پیش بینی برای ویژگی های صوتی و تصویری شرکای چت پیشنهاد شد., 2013). در بیلاخیا و همکاران. (2013) نویسندگان از ضرایب سیسترال با فرکانس مل به عنوان ویژگیهای صوتی و نشانههای چهره به عنوان ویژگیهای بصری استفاده کردند. سپس گروهی از مدل ها را تربیت کردند تا ویژگی های یک شریک چت را بر اساس ویژگی های شریک دوگانه خود پیش بینی کنند تا وظیفه طبقه بندی باینری تقلید یا غیر تقلید را حل کنند . مدلی که کمترین خطای بازسازی فراهم شد کلاس را داد. در مقابل کار خود را, رویکرد ما این است که بدون نظارت, یعنی, مدل های تربیت نمی شوند برای پیش بینی حقیقت زمین وقوع تقلید.

به طور کلی همزمانی مبتنی بر احساسات به طور گسترده مورد تحقیق قرار نگرفته است و نشان داده شده است که به شدت به زمینه اجتماعی وابسته است و افراد اگر طرفدار یکدیگر نباشند اصلا همگام نمی شوند (هس و فیشر, 2014). و همچنین داشتن یک نتیجه مثبت در مذاکرات (سواب و همکاران., 2011), یک مشاهده مشابه برای شریک مورد علاقه در اطلاعات زبانی یافت شد (قیچی و همکاران., 2008). در یک تعامل مبتنی بر متن افراد به تکرار سبک شریک زندگی خود را در طول زمان یافت شد, به خصوص در حالات که اعتماد در حال حاضر تاسیس شد. در این راه همان, رابطه دوستانه در طول فعل و انفعالات به توسعه بسیار بیشتر بین شرکای در طول زمان در هنگام تکرار رفتارهای همتای پیدا شد (لافرانس, 1979).

3. مجموعه داده و ویژگی ها

برای اعتبارسنجی رویکردهای پیشنهادی از پیکره تعامل صوتی و تصویری در طبیعت (کوسایفی و همکاران) استفاده میکنیم., 2019) 1 . یک پایگاه داده که در گذشته به عنوان پایگاه داده معیار رسمی برای چالش های احساسات صوتی و تصویری 2017 و 2018 مورد استفاده قرار گرفته است (رینگوال و همکاران., 2017, 2018). استخراج هر دو ویژگی های صوتی دست گردد و نمایندگی های عمیق از سیگنال های صوتی در سطح قاب از تمام جلسات. ما به دلیل عملکرد قبلی و توانایی اثبات شده در ضبط ویژگی های گفتار (شولر و همکاران) تصمیم گرفتیم ویژگی های طیف صوتی و صوتی را استخراج کنیم., 2013; امیریپاریان و همکاران., 2016, 2018; ایبن, 2016). هر دو مجموعه از ویژگی های در ماهیت خود متفاوت هستند; ج ام علیرضا یک دست گردد است, مجموعه ای از ویژگی های متخصص طراحی شده است که می تواند اطلاعات در سطح قاب وابسته به زمان برای سیگنال های ورودی پوشش, و د افقی بازدید کنندگان طیف است در طیف سنجی از سیگنال های صوتی بر اساس, تمرکز بیشتر بر روی خواص فرکانس زمان سخنرانی.

3.1. مجموعه داده چت تصویری سیوا

پایگاه داده سیوا شامل ضبط های صوتی و تصویری از 197 مکالمه دوگانه (شامل 201 مرد و 197 زن) از افراد شش فرهنگ متفاوت (چینی, مجارستانی, المانی, انگلیسی, صربی, و یونانی). خلاصه ای از پایگاه داده سیوا در جدول داده شده 1 , از جمله تعداد و مدت زمان کل مکالمه برای هر فرهنگ. یک مکالمه به عنوان مثال در شکل نشان داده شده است 1 و در طول چنین مکالمات, افراد با یکدیگر بحث در مورد تبلیغات 90 بازدید کنندگان از یک (اب) شیر که فقط از طریق پلت فرم وب نشان داده شده است.

جدول 1

تعداد مکالمات و موضوعات و همچنین کل مدت زمان داده شده در دقیقه برای هر فرهنگ.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.