سیستم عامل: ویندوز ۷ ویرایش تجاری.
چارچوب داتنت فریمورک نسخه ۳٫
زبان برنامهنویسی سیشارپ ۲۰۱۰٫
محیط شبیهسازی متلب نسخه ۲۰۱۱٫
جهت پیادهسازی روش پیشنهادی، ماژولهای زیر تعریف گردید:
۱) ماژول بارگذاری و تفسیر دادهها: در این ماژول، دادهها از فایل با فرمت PCAP در حافظه بارگذاری و سپس رکورد به رکورد ، خوانده شدند . به دلیل حجم بالای فایل بستههای شبکه ، امکان بارگذاری یک جا در حافظه با توجه به محدودیتهای RAM سیستم وجود ندارد. به همین دلیل زبان سیشارپ به دلیل قابلیت خواندن جریانی دادهها از RAM و سرعت بالا در مدیریت رکوردها ، انتخاب شد . در این ماژول ، رکوردها به صورت متوالی خوانده شده و سپس به ماژول بعدی تحویل میشوند.
۲) ماژول چکیدهگیری از اطلاعات: در این ماژول، هر رکورد خوانده شده از ماژول قبلی ، تفسیر شده و بر اساس هاست مبدا و مقصد ، اطلاعات ذخیرهشده در داخل ساختار هاستها بروز میشوند. در ساختار ایجاد شده ، کلید اصلی همان هاست بوده که در آن اطلاعات بایتهای دریافتی و ارسالی، تعداد بستههای دریافتی و ارسالی و … نگهداری میشود. به ازای ورود یک رکورد جدید ، ابتدا هاست مبدا و مقصد جداگانه استخراج شده ، و در صورت وجود هاست ، اطلاعات بروز شده و در غیراین صورت ، مدخل جدیدی در ساختار، ایجاد شده و هاست جدید به آن اضافه میشود. این ماژول نیز تحت زبان سیشارپ نگارش شدهاست. خروجی این ماژول ، دادهها تفسیر شده در قالب جدول میباشد .
۳) ماژول فیلتراسیون دادهها (رکوردها وستونها): این ماژول در محیط اکسل و به صورت دستی پیادهسازی شدهاست . برای این منظور ، ساختار دادههای خروجی ماژول قبل ، انتخاب و در برنامه اکسل اقدام به پردازش میشود. همانطور که در فصل قبل بیان شد ، جهت فیلتراسیون رکوردها از قوانین از قبل تعیین شدهای جهت اندازه بایت ارسالی و بایت دریافتی و همچنین نوع پروتکل استفاده شدهاست. هدف از این ماژول ، کوچکتر نمودن فضای جستجو با حذف رکوردهایی است که احتمال بات بودن آنها پایین است. همانطور که گفتهشد ، باتها حجم تبادل دادهای بالایی دارند. همچنین دو پروتکل TCP و UDP به عنوان دو پروتکل مهم در تبادلات مد نظر قرار گرفت.
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
۴) ماژول انتخاب ویژگی: انتخاب ویژگیهای پرارزش و حذف ویژگیهای نامرتبط ، تاثیر بسزایی در کارایی روش یادگیری ماشین دارد. از طرفی دیگر ، این امر موجب کاهش ابعاد مجموعهداده و افزایش سرعت میشود .
در مقالات پایه، از روشهای مختلفی نظیر Information Gain استفاده شدهاست در این کار از الگوریتم RELIEF استفاده شدهاست . این روش ، از مجموعه روشهای حریصانه بوده که دارای هزینه زمانی خطی میباشد . این روش همچنین نسبت به نویز مقاوم است.
۵) ماژول خوشهبندی: روش خوشه بندی انتخابی ، بر اساس روش K-Means از رده روشهای مبتنی بر مرکز ثقل میباشد. در این روش، از وزندهی به متغیرها و همچنین وفقپذیری برای خوشههای غیرمتعارف استفاده شدهاست.
۶) ماژول تعیین وضعیت هاست جدید: با ورود هاست جدید و تبادل اطلاعات، ابتدا بعد از گذشت مدت زمانی، اطلاعات آماری تبادل دادهها برای هاست جدید استخراج میشود . سپس، رکورد هاست جدید ، با سیار مراکز ثقلها مقایسه میشود. در نهایت خوشهای که مرکز ثقل آن دارای کمترین فاصله میباشد ، به عنوان خوشه معرف هاست جدید معرفی میشود.
۴-۲- نتایج روش پیشنهادی
در این بخش به بررسی نتایج بدست آمده و تحلیل آن پرداخته میشود. ابتدا ، نتایج روش پیشنهادی ، ترسیم شده و سپس تاثیر پارامتر K بر روی نتایج بررسی میشود. در ادامه، نتایج با روش پایه k-Means مقایسه شده و در آخر ، هاست جدید تعیین وضعیت میشود.
بعد از تفسیر بستهها ، ۱۴ متغیر زیر برای هر هاست، از روی اطلاعات آماری تحلیل بستهها آمد:
IP, LargestByteRecieve, LargestByteSend, MeanByteRecieve, MeanByteSend, ProtocolType, SmallestByteRecieve,SmallestByteSend, TotalByteRecieve, TotalByteSend, TotalRecievePacket, TotalSendPacket, TTL, Class
از میان ویژگیهای بالا، متغیر کلاس، در الگوریتمهای خوشهبندی به کار نمیروند. همچنین متغیر اول نیز حاوی آدرس هاست است که دارای ارزش اطلاعاتی در مرحله یادگیری ماشین نمیباشد . پس در نهایت ۱۲ متغیر باقی ماندند . در شکل ۴-۱، وزن هریک از ویژگیها بعد از مرحله تعیین ویژگیها مشاهده میشود.
با توجه به شکل ۴-۱، ویژگیهای که اهمیت آنها از ۰٫۰۵ بیشتر است به عنوان ویژگیهای نهایی انتخاب میشوند. در الگوریتم RELIEF از روش KNN جهت یافتن بهترین متغیرها استفاده میشود. جهت اجرای این الگوریتم به طور پیشفرض مقدار K=10 انتخاب شدهاست. انتخاب مرز ۰٫۰۵ نیز میتواند متغیر باشد. این مرز به دلیل محدود کردن متغیرها و دستیابی به دقت بالاتر انتخاب شدهاست.
همانطور که قبلا گفتهشد، برخی از متغیرها نظیر IP هاست، به دلیل اطمینان از عدم اهمیت، در مرحله فیلتر دستی دادهها، حذف شدند.
شکل ۴-۱: نمودار اهمیت هر یک از ویژگیها
با توجه به متغیرهای بدست آمده و فیلتر دستی مرحله قبل، مجموعهداده ما بدست آمده است. حال، الگوریتم خوشهبندی برای دادهها با مقدار اولیه K=5 اجرا میشود. در جدول ۴-۱، نتایج خوشهبندی، به ازای هر هاست مشخص شدهاست.
جدول ۴-۱: نتایج حاصل از خوشهبندی
IP | Cluster | Bot? |
۱۷۲٫۱۶٫۲٫۲ | ۱ | Yes |
۱۷۲٫۱۶٫۰٫۱۲ | ۵ | Yes |
۱۷۲٫۱۶٫۲٫۱۱ | ۴ | Yes |