loading...

jadiddovom

بازدید : 296
جمعه 23 خرداد 1399 زمان : 12:56

چندین سال است که سیستم های رایانه ای که می توانند به طور خودکار تصاویر زیرنویس تصاویر را تولید کنند ، وجود دارند. در حالی که بسیاری از این تکنیک ها عملکرد بسیار خوبی دارند ، نوشتن شرح تصاویر آنها به طور معمول عمومی و تا حدودی بی علاقه است ، و شامل توضیحات ساده ای از جمله "یک سگ پارس می شود" یا "یک مرد روی یک نیمکت نشسته است" است.


Alasdair Tran ، Alexander Mathews و Lexing Xie در دانشگاه ملی استرالیا در تلاشند تا سیستم های جدیدی تولید کنند که بتواند شرح تصاویر پیشرفته تر و توصیفی را تولید کند. در مقاله ای که اخیراً روی arXiv منتشر شده است ، آنها یک سیستم نوشتن خودکار برای تصاویر خبری معرفی کرده اند که ضمن تولید زیرنویس های جدید ، زمینه کلی پشت یک تصویر را در نظر می گیرد. هدف از مطالعه آنها این بود که امکان ایجاد زیرنویس هایی را فراهم کنید که جزئیات بیشتری دارند و بیشتر شبیه به آنچه که توسط انسان ها نوشته شده است.

Xie به TechXplore گفت: "ما می خواهیم فراتر از توصیف جزئیات بدیهی و کسل کننده تصویری فراتر برویم." "آزمایشگاه ما قبلاً کارهایی انجام داده است که شرح تصاویر را احساساتی و عاشقانه می کند و این کار ادامه در بعد دیگری است. در این جهت جدید ، ما می خواستیم به متن توجه کنیم."

در سناریوهای زندگی واقعی ، بیشتر تصاویر با یک داستان شخصی و منحصر به فرد همراه هستند. به عنوان مثال ممکن است یک تصویر از کودک در جشن تولد یا هنگام پیک نیک خانوادگی گرفته شود.

تصاویر منتشر شده در یک روزنامه یا در یک سایت رسانه ای آنلاین معمولاً با مقاله ای همراه هستند که اطلاعات بیشتری در مورد رویداد خاص یا شخصی که در آنها اسیر شده است ارائه می دهد. بیشتر سیستم های موجود برای تولید شرح تصاویر ، این اطلاعات را در نظر نمی گیرند و از یک تصویر به عنوان یک شیء منزوی استفاده می کنند ، کاملاً بی توجه به متن همراه با آن.

وی ادامه داد: "ما از این سؤال زیر پرسیدیم: با توجه به یک مقاله خبری و یک تصویر ، آیا می توانیم مدلی را بسازیم که بتواند هم از تصویر و هم از متن مقاله آگاهی داشته باشد تا بتواند یک عنوان را با اطلاعات جالب ایجاد کند که به راحتی نمی توان از آن چشم پوشی کرد. تصویر به تنهایی؟ " ترن گفت

این سه محقق در ادامه به توسعه و پیاده سازی اولین سیستم انتهایی به پایان رسیده اند که می تواند تصاویر را برای تصاویر خبری تولید کند. مهمترین مزیت مدلهای پایان به سادگی ، سادگی آنهاست. این سادگی در نهایت اجازه می دهد تا مدل محققان از نظر زبانی غنی باشند و دانش دنیای واقعی مانند نام افراد و مکان ها را تولید کنند.

نمای کلی مدل. سمت چپ: رمزگشایی با چهار بلوک ترانسفورماتور. سمت راست: رمزگذار برای مقاله ، تصویر ، چهره ها و اشیاء. رمزگشاده نشانه های جفت بایت (دایره های آبی در پایین) را به عنوان تعبیه های ورودی می گیرد. به عنوان مثال ، ورودی در مرحله زمانی آخر ، 14980 ، از مرحله زمانی قبل نمایانگر "arsh" در "Varshini" است. فلش های خاکستری پیچش ها را در مرحله زمانی آخر در هر بلوک نشان می دهند. فلش های رنگی به چهار حوزه در سمت راست توجه می کنند: متن مقاله (خطوط سبز) ، لکه های تصویر (خطوط زرد) ، صورت (خطوط نارنجی) و اشیاء (خطوط آبی). خروجی رمزگشایی نهایی نشانه های بایت جفت است که سپس برای تشکیل کلمات کلیدی و علامت های جمع شده ترکیب می شوند. اعتبار: ترنس ، ماتئو و شی.
وی ادامه داد: سیستم های نوشتن خبرهای قبلی از نظر ابعادی واژگان محدودی داشتند و برای تولید اسامی نادر ، آنها مجبور بودند دو مرحله مجزا را طی کنند: تولید الگویی مانند "PERSON در حال ایستادن است" ؛ و سپس ترن گفت: "پر کردن متغیرهایی که اسامی واقعی آنها را در متن دارند". "ما می خواستیم از این مرحله میانه تولید الگو صرفنظر کنیم ، بنابراین ما از تکنیکی به نام رمزگذاری جفت بایت استفاده کردیم که در آن کلمه ای به زیر شاخه های متداول مانند" tion "و" ing "تقسیم می شود."

چندین سال است که سیستم های رایانه ای که می توانند به طور خودکار تصاویر زیرنویس تصاویر را تولید کنند ، وجود دارند. در حالی که بسیاری از این تکنیک ها عملکرد بسیار خوبی دارند ، نوشتن شرح تصاویر آنها به طور معمول عمومی و تا حدودی بی علاقه است ، و شامل توضیحات ساده ای از جمله "یک سگ پارس می شود" یا "یک مرد روی یک نیمکت نشسته است" است.


Alasdair Tran ، Alexander Mathews و Lexing Xie در دانشگاه ملی استرالیا در تلاشند تا سیستم های جدیدی تولید کنند که بتواند شرح تصاویر پیشرفته تر و توصیفی را تولید کند. در مقاله ای که اخیراً روی arXiv منتشر شده است ، آنها یک سیستم نوشتن خودکار برای تصاویر خبری معرفی کرده اند که ضمن تولید زیرنویس های جدید ، زمینه کلی پشت یک تصویر را در نظر می گیرد. هدف از مطالعه آنها این بود که امکان ایجاد زیرنویس هایی را فراهم کنید که جزئیات بیشتری دارند و بیشتر شبیه به آنچه که توسط انسان ها نوشته شده است.

Xie به TechXplore گفت: "ما می خواهیم فراتر از توصیف جزئیات بدیهی و کسل کننده تصویری فراتر برویم." "آزمایشگاه ما قبلاً کارهایی انجام داده است که شرح تصاویر را احساساتی و عاشقانه می کند و این کار ادامه در بعد دیگری است. در این جهت جدید ، ما می خواستیم به متن توجه کنیم."

در سناریوهای زندگی واقعی ، بیشتر تصاویر با یک داستان شخصی و منحصر به فرد همراه هستند. به عنوان مثال ممکن است یک تصویر از کودک در جشن تولد یا هنگام پیک نیک خانوادگی گرفته شود.

تصاویر منتشر شده در یک روزنامه یا در یک سایت رسانه ای آنلاین معمولاً با مقاله ای همراه هستند که اطلاعات بیشتری در مورد رویداد خاص یا شخصی که در آنها اسیر شده است ارائه می دهد. بیشتر سیستم های موجود برای تولید شرح تصاویر ، این اطلاعات را در نظر نمی گیرند و از یک تصویر به عنوان یک شیء منزوی استفاده می کنند ، کاملاً بی توجه به متن همراه با آن.

وی ادامه داد: "ما از این سؤال زیر پرسیدیم: با توجه به یک مقاله خبری و یک تصویر ، آیا می توانیم مدلی را بسازیم که بتواند هم از تصویر و هم از متن مقاله آگاهی داشته باشد تا بتواند یک عنوان را با اطلاعات جالب ایجاد کند که به راحتی نمی توان از آن چشم پوشی کرد. تصویر به تنهایی؟ " ترن گفت

این سه محقق در ادامه به توسعه و پیاده سازی اولین سیستم انتهایی به پایان رسیده اند که می تواند تصاویر را برای تصاویر خبری تولید کند. مهمترین مزیت مدلهای پایان به سادگی ، سادگی آنهاست. این سادگی در نهایت اجازه می دهد تا مدل محققان از نظر زبانی غنی باشند و دانش دنیای واقعی مانند نام افراد و مکان ها را تولید کنند.

نمای کلی مدل. سمت چپ: رمزگشایی با چهار بلوک ترانسفورماتور. سمت راست: رمزگذار برای مقاله ، تصویر ، چهره ها و اشیاء. رمزگشاده نشانه های جفت بایت (دایره های آبی در پایین) را به عنوان تعبیه های ورودی می گیرد. به عنوان مثال ، ورودی در مرحله زمانی آخر ، 14980 ، از مرحله زمانی قبل نمایانگر "arsh" در "Varshini" است. فلش های خاکستری پیچش ها را در مرحله زمانی آخر در هر بلوک نشان می دهند. فلش های رنگی به چهار حوزه در سمت راست توجه می کنند: متن مقاله (خطوط سبز) ، لکه های تصویر (خطوط زرد) ، صورت (خطوط نارنجی) و اشیاء (خطوط آبی). خروجی رمزگشایی نهایی نشانه های بایت جفت است که سپس برای تشکیل کلمات کلیدی و علامت های جمع شده ترکیب می شوند. اعتبار: ترنس ، ماتئو و شی.
وی ادامه داد: سیستم های نوشتن خبرهای قبلی از نظر ابعادی واژگان محدودی داشتند و برای تولید اسامی نادر ، آنها مجبور بودند دو مرحله مجزا را طی کنند: تولید الگویی مانند "PERSON در حال ایستادن است" ؛ و سپس ترن گفت: "پر کردن متغیرهایی که اسامی واقعی آنها را در متن دارند". "ما می خواستیم از این مرحله میانه تولید الگو صرفنظر کنیم ، بنابراین ما از تکنیکی به نام رمزگذاری جفت بایت استفاده کردیم که در آن کلمه ای به زیر شاخه های متداول مانند" tion "و" ing "تقسیم می شود."

نظرات این مطلب

تعداد صفحات : 2

درباره ما
موضوعات
آمار سایت
  • کل مطالب : 6
  • کل نظرات : 0
  • افراد آنلاین : 1
  • تعداد اعضا : 0
  • بازدید امروز : 2
  • بازدید کننده امروز : 1
  • باردید دیروز : 0
  • بازدید کننده دیروز : 0
  • گوگل امروز : 0
  • گوگل دیروز : 0
  • بازدید هفته : 31
  • بازدید ماه : 67
  • بازدید سال : 363
  • بازدید کلی : 3706
  • <
    پیوندهای روزانه
    آرشیو
    اطلاعات کاربری
    نام کاربری :
    رمز عبور :
  • فراموشی رمز عبور؟
  • خبر نامه


    معرفی وبلاگ به یک دوست


    ایمیل شما :

    ایمیل دوست شما :



    کدهای اختصاصی