view in publisher's site

Semantic N-Gram Feature Analysis and Machine Learning–Based Classification of Drivers’ Hazardous Actions at Signal-Controlled Intersections

In the United States, it is common for crash reports to include a narrative that contains a police officer’s written summary of the crash. The crash narratives provide valuable information that can assist in understanding circumstances surrounding a crash at a given roadway location. However, the crash report narratives contain unstructured textual information, which is hard to extract or utilize in analyses considering there are hundreds of thousands of reports. This study uses Michigan’s crash reports (UD-10) to demonstrate how natural language processing (NLP) techniques can be useful in extracting information from the UD-10 crash report narratives to better understand crash scenarios. Reports of crashes at signal-controlled intersections in Michigan involving responsible (i.e., at fault) drivers who were issued a “fail to yield” or “disregard traffic control” hazardous action citation were used in the analysis. Semantic analysis was conducted to discern the most likely crash scenario at signal-controlled intersections for each of the hazardous action with respect to the responsible driver’s movement. Support vector machines and boosted classification trees were developed using unigram and bigram features with different n-gram feature deployment scenarios to predict hazardous action citations. Support vector machines using a mixture of unigram and bigram features performed better than the boosted classification tree, with an out-of-sample predictive accuracy of 86.1 percent and area under Receiver Operating Curve (ROC) of 0.917. Overall, the results can help safety engineers and analysts to ascertain the causes of a crash by detailing the chain of precrash events leading to a crash.

ویژگی معنایی N - تجزیه و تحلیل مشخصه و طبقه‌بندی مبتنی بر یادگیری ماشین در کنترل سیگنال - کنترل‌شده

در ایالات‌متحده، شایع است که گزارش‌های فروپاشی شامل یک روایت می‌شود که شامل چکیده نوشته افسر پلیس از تصادف است. روایت‌های تصادف اطلاعات ارزشمندی را فراهم می‌کنند که می‌توانند به درک شرایط پیرامون تصادف در مکان شاهراه داده‌شده کمک کنند. با این حال، روایت‌های گزارش سقوط حاوی اطلاعات متنی بدون ساختار هستند، که استخراج و یا استفاده از آن‌ها در تجزیه و تحلیل با توجه به اینکه صدها هزار گزارش وجود دارد، دشوار است. این مطالعه از گزارش‌ها سقوط میشیگان (UD - ۱۰)استفاده می‌کند تا نشان دهد که چگونه تکنیک‌های پردازش زبان طبیعی (NLP)می‌تواند در استخراج اطلاعات از روایت‌های گزارش سقوط UD - ۱۰ برای درک بهتر سناریوهای سقوط مفید باشد. گزارش‌های مربوط به تصادفات در تقاطع‌های کنترل سیگنال در میشیگان دارای مسیولیت (به عنوان مثال، در خطای)که "عدم موفقیت" را رد کرده یا "کنترل ترافیک را نادیده می‌گیرند" در این آنالیز استفاده شد. آنالیز معنایی برای تشخیص محتمل‌ترین سناریوی سانحه در تقاطع‌های کنترل سیگنال برای هر یک از اقدامات خطرناک با توجه به حرکت راننده مسئول انجام شد. ماشین‌های بردار پشتیبان و درخت‌های طبقه‌بندی را با استفاده از ویژگی‌های unigram و bigram با سناریوهای توسعه ویژگی n مختلف برای پیش‌بینی citations اقدام خطرناک توسعه دادند. ماشین‌های بردار پشتیبان با استفاده از ترکیبی از ویژگی‌های unigram و bigram عملکرد بهتری نسبت به درخت طبقه‌بندی تقویت‌شده ایفا می‌کنند، با دقت پیش‌بینی out درصد و مساحت تحت منحنی عملیاتی گیرنده (ROC)در کل، نتایج می‌توانند به مهندسین و تحلیلگران ایمنی کمک کنند تا دلایل وقوع سانحه را با شرح زنجیره‌ای رویداده‌ای precrash که منجر به تصادف می‌شوند، تعیین کنند.

ترجمه شده با

Download PDF سفارش ترجمه این مقاله این مقاله را خودتان با کمک ترجمه کنید
سفارش ترجمه مقاله و کتاب - شروع کنید

95/12/18 - با استفاده از افزونه دانلود فایرفاکس و کروم٬ چکیده مقالات به صورت خودکار تشخیص داده شده و دکمه دانلود فری‌پیپر در صفحه چکیده نمایش داده می شود.