Iegūstiet vairāk ieskatu no sava teksta vienā koda rindiņā!
Motivācija
Dati satur ne tikai ciparus, bet arī tekstu. Zinot, kā ātri apstrādāt tekstu, varēsit ātrāk analizēt savus datus un iegūt vairāk ieskatu no saviem datiem.
Teksta apstrādei nav jābūt sarežģītai. Vai nebūtu lieliski, ja viss, kas mums jādara, lai atrastu teksta noskaņu, marķētu tekstu, atrastu vārdu un lietvārdu frāžu biežumu vai pareizi uzrakstītu viena koda rinda ? Tas ir tad, kad TextBlob ir noderīgs.
Kas ir TextBlob?
TextBlob mērķis ir nodrošināt piekļuvi parastajām teksta apstrādes operācijām, izmantojot pazīstamu saskarni. Jūs varat izturēties pret TextBlob objektiem tā, it kā tie būtu Python virknes kas iemācījās veikt dabiskās valodas apstrādi.
NLTK piedāvā dažas metodes šo uzdevumu veikšanai, taču, lai pabeigtu dažādus uzdevumus, iespējams, būs jāzvana vairākām klasēm. Bet ar TextBlob viss, kas jums nepieciešams, ir izmantot | _+_ | lai piekļūtu dažādām TextBlob metodēm!
Instalējiet TextBlob ar
TextBlob(text)
Tagad viss, kas mums jādara, lai uzlādētu virkni, ir ietīt tekstu ar | _+_ | objekts.
pip install -U textblob python -m textblob.download_corpora
Uzzināsim, ko mēs varam darīt ar mūsu uzlādēto virkni.
Vārdu marķēšana
Mēs aizņemsimies dažus teikumus manā rakstā par kā mācīties datu zinātni, kad dzīve nedod jums pārtraukumu lai uzzinātu, kā lietot TextBlob.
Vārdu marķēšana sadala teksta daļu atsevišķos vārdos, pamatojoties uz noteiktiem norobežotājiem.
Tā vietā, lai sadalītu virkni, pamatojoties uz dažādiem norobežotājiem, piemēram, a vai a. vai atstarpi, viss, kas mums nepieciešams, lai marķētu teikumus, ir | _+_ | !
TextBlob
from textblob import TextBlob blob = TextBlob(text)
| _+_ | var izmantot kā Python sarakstu. Lai piekļūtu pirmajam vārdam, izmantojiet
blob.words
Lietvārdu frāžu ieguve
Lietvārda frāze ir divu vai vairāku vārdu grupa, kas koncentrējas uz lietvārdu (piemēram, 'suns', 'meitene', 'vīrietis') un ietver modifikatorus (piemēram, ',', 'a', 'neviens no') . Piemēram, “meitene” nav lietvārda frāze, bet “skaista meitene” ir lietvārda frāze.
Dažreiz mums ir svarīgi izņemt teikumā visas lietvārdu frāzes, nevis atsevišķus lietvārdus. TextBlob ļauj mums to viegli izdarīt
from textblob import TextBlob blob = TextBlob('When I was about to give up, I told myself to keep going. It is not about working harder; it is about working smarter.') blob.words
WordList(['When', 'I', 'was', 'about', 'to', 'give', 'up', 'I', 'told', 'myself', 'to', 'keep', 'going', 'It', 'is', 'not', 'about', 'working', 'harder', 'it', 'is', 'about', 'working', 'smarter'])
Kā redzam, no teikuma tiek iegūtas tikai “mācīšanās stratēģijas”, jo tā ir vienīgā lietvārda frāze teikumā.
Sajūtu analīze
Mēs varam iegūt arī teikuma noskaņu, izmantojot | _+_ |
WordList
>>> blob.words[0] 'When'
Polaritāte ir pludiņš, kas atrodas diapazonā no (-1,1). Ja polaritāte ir zemāka par 0, teikums ir vairāk negatīvs nekā pozitīvs. Ja polaritāte ir lielāka par 0, teikums ir vairāk pozitīvs nekā negatīvs. Tā kā mūsu polaritāte ir 0,15, tā ir vairāk pozitīva nekā negatīva.
Subjektivitāte attiecas uz personīgo viedokli. Subjektivitāte ir pludiņš, kas atrodas diapazonā (0,1). Ja subjektivitātes vērtība ir lielāka par 0,5, teikums ir vairāk subjektīvs nekā objektīvs un otrādi. Tā kā teikuma subjektivitāte ir 0,48, tas ir vairāk objektīvs nekā subjektīvs.
#python #datu zinātne #datu analīze #izstrādātājs
virzienā uz datascience.com
Uzlādējiet savu Python virkni, izmantojot TextBlob
Uzlādējiet savu Python virkni, izmantojot TextBlob. Jūs varat izturēties pret TextBlob objektiem tā, it kā tās būtu Python virknes, kas iemācītos veikt dabiskās valodas apstrādi. TextBlob mērķis ir nodrošināt piekļuvi parastajām teksta apstrādes operācijām, izmantojot pazīstamu saskarni.