آزمونهای ریشه واحد داده های ترکیبی که عموماً مورد استفاده قرار میگیرد عبارتند از آزمونهای لوین[۶۴]، لین[۶۵] و چو[۶۶] (۲۰۰۲)، ایم[۶۷]، پسران[۶۸] و شین[۶۹] (۱۹۹۷)، دیکی فولر تعمیم یافته[۷۰] (۱۹۸۱)؛ فلیپس- پرون[۷۱] (۱۹۹۸) و هاردی[۷۲] (۲۰۰۳). چنانچه آزمونهای ریشه واحد، ناایستا بودن متغیرها را نشان دهد، باید از آزمونهای همجمعی داده های ترکیبی پدرونی[۷۳] و کائو[۷۴] استفاده کرد (بالتاجی، ۲۰۰۵: ۲۵۳).
۳-۸-۲- چارچوب کلی مدل رگرسیون به روش داده های ترکیبی
داده های ترکیبی، شامل عناصر هر دو دسته از داده های سری زمانی و مقطعی است. نحوه چیدمان این نوع داده ها، به دو صورت انجام میشود:
در نوع اول، داده های یک واحد مقطعی برای T سال در کنار هم قرار میگیرد و سپس این عمل برای واحد مقطعی دوم و واحدهای بعدی تکرار میشود. این نحوه چیدمان داده ها را اصطلاحاً «داده های تلفیقی» میگویند.
نوع دوم چیدمان داده های ترکیبی نیز، قرار دادن داده های واحدهای مقطعی در هر سال در کنار هم است. به گونه ای که این روند برای سالهای بعد تکرار میشود. نحوه چیدمان داده ها به این صورت را اصطلاحاً «داده های تابلویی» میگویند.
چارچوب کلی آماری داده های ترکیبی به صورت زیر میباشد:
به طوری که در این رابطه، متغیر وابسته و در برگیرنده متغیرهای توضیحی میباشد. تعداد شرکتها (مشاهدات نمونهای) و بیانگر زمان است. اسکالر و دارای بعد که در آن تعداد متغیرهای توضیحی میباشد. جزء خاص مقطعهای زمانی[۷۵] و اثرات باقی مانده[۷۶] است (بالتاجی[۷۷]، ۲۰۰۵: ۱۱).
مدلهای رگرسیون داده های ترکیبی، با بهره گرفتن از روش اثرات تلفیقی[۷۸] و داده های تابلوئی به روش اثرات ثابت[۷۹] یا اثرات تصادفی[۸۰] برآورد میشود. در روش اثرات اثرات تلفیقی فرض بر این است که ها برای برشهای مقطعی ثابت است ( ). مدل اثرات ثابت مدلی است که در آن عرض از مبدأ بین واحدها تغییر می کند، به طوری که در این مدل عرض از مبدأ هر واحد از واحد دیگر متفاوت است، اما عرض از مبدأ هر واحد طی زمان ثابت است. در روش اثرات تصادفی نیز، فرض میشود تفاوت بین شرکتها تصادفی بوده که در این صورت یک جزء تصادفی مانندU1 به معادله اضافه میگردد (همان، ۲۰۰۵: ۱۱). برای تشخیص روش تخمین مناسب باید آزمونهای مختلفی انجام داد.
۳-۸-۳- آزمون قابلیت ادغام (F لیمر)
به منظور گزینش یکی از روشهای داده های تابلوئی یا داده های تلفیقی، از آزمون F لیمر استفاده شده است. آماره آزمون F لیمر تعیین میکند که آیا عرض از مبدأ جداگانه برای هر یک از مقاطع یا دوره ها وجود دارد یا خیر؟ در صورتی که بین مشاهدات، ناهمگنی یا تفاوتهای فردی وجود داشته باشد، از روش داده های تابلوئی و در غیر اینصورت، از روش داده های تلفیقی استفاده میشود. زیرا داده ها فقط روی هم انباشت شدهاند و تفاوت بین آن ها لحاظ نشده است. در آزمون F لیمر، فرضیه صفر بیانگر یکسان بودن عرض از مبدأها (داده های تلفیقی) و فرضیه مقابل، نشاندهنده ناهمسانی عرض از مبدأها (داده های تابلوئی) است.
بالتاجی (۲۰۰۵) با فرض نرمال بودن توزیع جملات اختلال آماره مورد نیاز برای انجام این آزمون را اینگونه بیان میکند (همان، ۲۰۰۵: ۵۹):
مجموع مربعات پسماندهای مقید حاصل از روش حداقل مربعات معمولی
مجموع مربعات پسماندهای غیرمقید حاصل از روش حداقل مربعات با متغیرهای مجازی
سال مورد بررسی
تعدادمقاطع
تعداد رگرسورها ( متغیرها)
۳-۸-۴- آزمون هاسمن
در صورتی که فرضیه صفر آزمون F لیمر پذیرفته نشود (روش داده های تابلوئی مرجح شناخته شود)، این پرسش مطرح میشود که مدل مورد بررسی، در قالب کدام یک از روشهای اثرات ثابت یا اثرات تصادفی قابل برآورد است؟ بنابرین، برای انتخاب یکی از روشهای اثرات ثابت و اثرات تصادفی، از آزمون هاسمن استفاده میشود. در این آزمون، فرضیه صفر عبارت است از استقلال (نبود ارتباط بین) جزء اخلال مربوط به عرض از مبدأ و متغیرهای توضیحی (روش اثرات تصادفی). در حالی که، فرضیه مقابل حاکی از وجود همبستگی بین جزء اخلال مربوط به عرض از مبدأ و متغیرهای توضیحی است. در صورت پذیرفته شدن فرضیه صفر، از روش اثرات تصادفی و در غیر این صورت از روش اثرات ثابت استفاده میشود (بالتاجی، ۲۰۰۵).
۳-۸-۵- تحلیل همبستگی در الگوهای رگرسیون
تحلیل همبستگی ابزاری است که برای تعیین میزان ارتباط متغیرهای مستقل و وابسته، استفاده میشود. تحلیل همبستگی، عموماً با بهره گرفتن از معیارهایی نظیر ضریب همبستگی، ضریب تعیین و ضریب تعیین تعدیل شده انجام میشود (آذر و مومنی، ۱۳۸۴: ۲۰۳). ضریب همبستگی ( )، شدت و نوع رابطه بین متغیرهای مستقل و وابسته را نشان میدهد. لیکن، ضریب تعیین نسبت به ضریب همبستگی معیار گویاتری است (همان، ۱۳۸۴: ۲۰۷). ضریب تعیین معیاری است که قوت رابطه میان متغیر مستقل و متغیر وابسته را تشریح میکند. مقدار این ضریب در واقع مشخص کننده آن است که چند درصد از تغییرات متغیر وابسته توسط متغیر مستقل توضیح داده میشود. مقدار از رابطه زیر تعیین میشود (پیندیک و روبینفیلد، ۱۳۷۰: ۱۱۲):
که در آن، SSE: تغییرات جمله خطا که توسط رگرسیون توضیح داده نمیشود؛ و SST: کل تغییرات در مقدار متغیر وابسته است.
با این حال اغلب ترجیح داده میشود که از مقیاس دیگری به نام ضریب تعیین تعدیل شده[۸۱] برای بررسی نیکویی برازش[۸۲] مدل رگرسیون چند متغیره استفاده کنند. این ضریب همان ضریب تعیین است که در آن مقادیر SST و SSE با درجات آزادیشان تعدیل گردیدهاند. این ضریب در رگرسیون چند متغیره به صورت زیر محاسبه میشود (پیندیک و روبینفیلد، ۱۳۷۰: ۱۱۳):
که در آن n تعداد مشاهدات و k تعداد متغیرهای مستقل است. در واقع هدف از به کارگیری تسهیل در مقایسه نیکویی برازش چندین معادله رگرسیون است که از نظر تعداد متغیرهای مستقل توضیحی متفاوتند.