اسپارک ان‌ال‌پی

اسپارک ان‌ال‌پی (انگلیسی: Spark NLP) یک کتابخانهٔ پردازش متن متن‌باز پردازش پیشرفتهٔ زبان‌های طبیعی برای زبان‌های برنامه‌نویسی پایتون، جاوا و اسکالا است.[۲][۳][۴] این کتابخانه بر اساس آپاچی اسپارک و کتابخانهٔ اسپارک ام‌ال آن ساخته شده است.[۵]

اسپارک ان‌ال‌پی
نویسنده(های)
اصلی
آزمایشگاه‌های جان اسنو
انتشار ابتداییاکتبر ۲۰۱۷[۱]
انتشار پایدار
۵٫۲٫۳
ژانویه ۲۰۲۴؛ ۴ ماه پیش (۲۰۲۴}})
مخزن
نوشته‌شده باپایتون، اسکالا
سیستم‌عامللینوکس، ویندوز، مک‌اواس، اواس اکس
گونهپردازش زبان‌های طبیعی
پروانهمجوز آپاچی
وبگاه

هدف از ساخت این کتابخانه فراهم کردن یک واسط برنامه‌نویسی کاربردی برای خط لوله‌های پردازش زبان‌های طبیعی است که نتایج پژوهش‌های دانشگاهی اخیر را به‌عنوان یک نرم‌افزار مقیاس‌پذیر، قابل آموزش و با مقیاس تولیدی پیاده‌سازی می‌کنند. این کتابخانه مدل‌های از پیش تربیت‌شدهٔ شبکهٔ عصبی را در کنار قابلیت الصاق و نیز پشتیبانی از آموزش مدل‌های سفارشی ارائه می‌کند.[۵]

ویژگی‌ها ویرایش

در طراحی این کتابخانه از مفهوم خط لوله استفاده شده است که مجموعه‌ای مرتب‌شده است از حاشیه‌نویس‌های متنی.[۶] حاشیه‌نویس‌های خارج از چارچوب شامل توکنایزر، نرمالایزر، ریشه‌زنی، ریشه‌یابی، عبارت باقاعده، مطابقت متن، قطعه‌کننده، مطابقت تاریخ، شناساگر جمله، شناساگر عمیق جمله، برچسب‌گذاری جزء کلام، ViveknSentimentDetector، عقیده‌کاوی، شناسایی نهاد نام‌گذاری‌شده، حاشیه‌نویس میدان تصادفی شرطی، تصحیح و حاشیه‌نویسی یادگیری عمیق، غلط‌یابی، تجزیه‌گر وابستگی، تجزیه‌گر وابستگی تایپ‌شده، دسته‌بندی اسناد و شناسایی زبان می‌شود.[۷]

مدلز هاب یک پلتفرم برای اشتراک‌گذاری مدل‌ها و خط لوله‌های متن‌باز و نیز مدل‌های مجوزدارِ از پیش تربیت‌شده است. این شامل خط لوله‌های از پیش تربیت‌شدهٔ دارای نشانه‌گذاری، ریشه‌یابی، برچسب‌گذاری جزء کلام، و شناسایی نهاد نام‌گذاری‌شده‌ای می‌شود که برای بیش از سیزده زبان وجود داشته باشد؛ تعبیه‌کردن واژه‌ها از جمله گلوو، المو، برت، آلبرت، اکس‌النت، اسمال برت و الکترا، و تعبیه‌کردن جمله شامل کارگذاری جهانی جمله (USE)[۸] و کارگذاری جملهٔ برت غیر وابسته به زبان (LaBSE) می‌شود.[۹] این پلتفرم همچنین حاوی منابع و مدل‌های از پیش تربیت‌شده‌ای برای بیش از دویست زبان است. کد پایهٔ اسپارک ان‌پی‌ال حاوی پشتیبانی از زبان‌های آسیای شرقی نظیر نشانه‌گذارهایی برای زبان‌های چینی، ژاپنی، کره‌ای؛ برای زبان‌های راست به چپ نظیر اردو، فارسی، عربی، عبری و جاگذاری‌های واژه و جملهٔ از پیش تربیت‌شدهٔ چندزبانه نظیر LaUSE و حاشیه‌نویس ترجمه است.

منابع ویرایش

  1. Talby, David (19 October 2017). "Introducing the Natural Language Processing Library for Apache Spark". databricks.com. databricks. Retrieved 29 March 2019.
  2. Ellafi, Saif Addin (2018-02-28). "Comparing production-grade NLP libraries: Running Spark-NLP and spaCy pipelines". O'Reilly Media (به انگلیسی). Retrieved 2019-03-29.
  3. Ellafi, Saif Addin (2018-02-28). "Comparing production-grade NLP libraries: Accuracy, performance, and scalability". O'Reilly Media (به انگلیسی). Retrieved 2019-03-29.
  4. Ewbank, Kay. "Spark Gets NLP Library". www.i-programmer.info.
  5. ۵٫۰ ۵٫۱ Thomas, Alex (July 2020). Natural Language Processing with Spark NLP: Learning to Understand Text at Scale (First ed.). United States of America: O'Reilly Media. ISBN 978-1492047766.
  6. Talby, David (2017-10-19). "Introducing the Natural Language Processing Library for Apache Spark - The Databricks Blog". Databricks (به انگلیسی). Retrieved 2019-08-27.
  7. Jha, Bineet Kumar; G, Sivasankari G.; R, Venugopal K. (May 2, 2021). "Sentiment Analysis for E-Commerce Products Using Natural Language Processing". Annals of the Romanian Society for Cell Biology: 166–175 – via www.annalsofrscb.ro.
  8. Cer, Daniel; Yang, Yinfei; Kong, Sheng-yi; Hua, Nan; Limtiaco, Nicole; John, Rhomni St; Constant, Noah; Guajardo-Cespedes, Mario; Yuan, Steve; Tar, Chris; Sung, Yun-Hsuan; Strope, Brian; Kurzweil, Ray (12 April 2018). "Universal Sentence Encoder". arXiv:1803.11175 [cs.CL].
  9. Feng, Fangxiaoyu; Yang, Yinfei; Cer, Daniel; Arivazhagan, Naveen; Wang, Wei (3 July 2020). "Language-agnostic BERT Sentence Embedding". arXiv:2007.01852 [cs.CL].