February 29, 2024Open Access

Klassifizierung von SMS als Spam oder Ham: Nutzung von NLP und Machine Learning-Techniken

Key Points

Key points are not available for this paper at this time.

Abstract

In einer von mobiler Kommunikation dominierten Ära spielt der Short Message Service (SMS) eine entscheidende Rolle in zwischenmenschlichen Interaktionen. Die Zunahme unerwünschter Spam-Nachrichten erfordert jedoch effektive Differenzierungsmechanismen. Diese explorative Datenanalyse (EDA) nutzt einen Datensatz aus dem renommierten UCI Machine Learning Repository, um zentrale Merkmale zu erkennen, die Spam von legitimen Nachrichten unterscheiden. Durch den Einsatz der Natural Language Processing (NLP)-Technik der Vektorisierung (BOW und TF-IDF), einschließlich der Verwendung eines Naïve Bayes-Algorithmus und Sentiment-Analyse, deckt diese Untersuchung Muster und Besonderheiten auf, die spezifisch für Spam-Inhalte sind. Die Ergebnisse heben deutliche Unterschiede in der Verwendung von Lexikon, Nachrichtenstruktur und linguistischen Merkmalen zwischen Spam- und legitimen Nachrichten hervor. Beispielsweise weisen Spam-Nachrichten oft eine aggressive Sprache auf und verwenden unkonventionelle Strukturen. Um dies zu verdeutlichen, werden spezifische Beispiele solcher Sprachmuster und struktureller Anomalien bereitgestellt, die ein nuanciertes Verständnis der Ergebnisse der Studie bieten. Basierend auf datengestützten Erkenntnissen legt diese Studie die Grundlage für zukünftige Vorhaben zur Entwicklung robuster, NLP-gesteuerter Spam-Erkennungsmechanismen, um die Essenz der persönlichen Kommunikation im SMS-Bereich zu bewahren. Die Evaluierung des Modells auf einem Testdatensatz von 5.572 SMS-Nachrichten ergab bemerkenswerte Ergebnisse. Das Modell zeigte eine Präzisionsrate von 98 % für legitime Nachrichten und eine tadellose 100 % Präzision bei der Identifizierung von Spam ohne falsche Kategorisierungen. Eine bemerkenswerte Abnahme der Recall-Rate für Spam-Nachrichten, mit 85 %, wirft jedoch wichtige Überlegungen auf. Dies deutet auf potenzielle Herausforderungen bei der Erkennung bestimmter Spam-Arten hin und betont die Notwendigkeit weiterer Verfeinerungen des Modells. Die jeweiligen F1-Scores für Ham- und Spam-Nachrichten betrugen 99 % bzw. 92 % und beleuchten die Gesamteffizienz des Modells. Diese Leistungskennzahlen quantifizieren nicht nur die Genauigkeit des Modells mit bewundernswerten 98 %, sondern regen auch zu tiefergehenden Überlegungen zu den praktischen Implikationen der Ergebnisse an und betonen Bereiche für zukünftige Forschung und Verbesserung in der Spam-Erkennung innerhalb der dynamischen Landschaft der mobilen Kommunikation.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Deepak Dharrao

Symbiosis International University

Pratik Gaikwad

Symbiosis International University

Shailesh V. Gawai

Journals

International Journal of Safety and Security Engineering

Actions

Institutions

Savitribai Phule Pune University

Symbiosis International University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Klassifizierung von SMS als Spam oder Ham: Nutzung von NLP und Machine Learning-Techniken

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider