
NLTK pythonによる分類とPOSタグ付け
自然言語処理は、コンピュータサイエンス、情報工学、人工知能のサブ領域であり、コンピュータと人間(ネイティブ)言語間の相互作用に関係しています。 これは、大量の自然言語データを処理して分析するためにコンピュータをプログラムする方法に過ぎません。
NLP = Computer Science + AI + Computational Linguistics
別の方法では、自然言語処理は、それが話されているように人間の言語を理解するためのコンピュータソフトウェアの機能です。 NLPは人工知能(AI)の構成要素の1つです。Natural Language Toolkit(より一般的にはNLTK)は、Pythonプログラミング言語で書かれた英語の記号的および統計的自然言語処理(NLP)のためのライブラリとプログラムのスイートで
単語を品詞に分類し、それに応じてラベル付けするプロセスは、品詞タグ付け、POSタグ付け、または単にタグ付けとして知られています。 品詞は、単語クラスまたは語彙カテゴリとしても知られています。 特定のタスクに使用されるタグのコレクションは、タグセットと呼ばれます。
タグを使用して

品詞タグガー、またはposタグガーは、単語のシーケンスを処理し、各単語に品詞タグを添付します。 これを行うには、最初にトークン化の概念を使用する必要があります(トークン化は、テキストの量をトークンと呼ばれる小さな部分に分割するプロセP>
出力:
上記の出力では、cc、連動を調整しています。
学習はVBまたは動詞です;
for is IN,a preposition;
nltkは、タグを使用して照会できる各タグのドキュメントを提供します
>>>>>nltk。助けて!./p>
div>>nltk。助けて!.upenn_tagset(‘RB’)
RB:
>>>>>>>>>>>>
NN: p>
>>>>>>>>>>>>nltk。助けて!.upenn_tagset(‘NNP’)
nnp:名詞、固有、単数
Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
Oceanside Escobar Kreisler Sawyer Cougar Yvette Erin ODI Darryl CTCA
Shannon A.K.C. Miltex Liverpool …
>>> nltk.help.upenn_tagset(‘CC’)
CC: conjunction, coordinating
& ‘n and both but either et for less minus neither nor or plus so
therefore times v. versus vs. whether yet
>>> nltk.help.upenn_tagset(‘DT’)
DT: p>
どちらもないいくつかのようなこれらのこれらのもの
>>>>nltk。助けて!.upenn_tagset(‘TO’)
TO:”to”前置詞または不定詞マーカーとして
to
>>>>>>nltk。助けて!.upenn_tagset(‘VB’)
VB: p>
ブーストブレースブレークはブロイルブラシビルドをもたらします…




nltkライブラリのposタガーは、特定の単語の特定のタグを出力します。 POSタグのリストは次のとおりで、各POSが何を意味するかの例があります。
- CC coordinating conjunction
- CD cardinal digit
- DT determiner
- EX existential there (like: “ある”…”ある”のように考えてください)
- FW外国語
- 前置詞/従属接続詞
- JJ形容詞”大きな”
- jjr形容詞、比較”大きな”
- jjs形容詞、最上級”最大”
- LSリストマーカー1)
- MDモーダル可能性があり、意志
- NN名詞、単数”机”
- NNP固有名詞、単数形「ハリソン」
- NNPS固有名詞、複数形「アメリカ人」
- PDTプレデター「すべての子供」
- pos所有格の終わりの親の
- PRP個人 代名詞I、彼、彼女
- PRP♥所有代名詞私の、彼の、彼女
- RB副詞非常に、静かに、
- RBR副詞、比較より良い
- RBS副詞、最上級の最高
- RP粒子はあきらめます
- に、店に”に”行く。
- UH間投詞、errrrrrrrm
- VB動詞、基本形を取る
- VBD動詞、過去時制、取った
- VBG動詞、動名詞/現在分詞を取る
- VBN動詞、過去分詞が取られます
- VBP動詞、歌う。 現在、知られている-3dテイク
- VBZ動詞、3人目が歌います。 presentは
- wdt wh-determiner which
- WP wh-代名詞who,what
- WP$所有格wh-代名詞
- WRB wh-副詞where,when
タグ付けされたコーパス
タグ付けされたトークンを表す
タグ付けされたトークンは、トークンとタグからなるタプルを使用して表される。 タグ付けされたトークンの標準的な文字列表現から、関数str2tuple()を使用して、これらの特別なタプルのいずれかを作成することができます:/div>
タグ付きコーパスを読む
nltkに含まれるコーパスのいくつかは、品詞のタグ付けされています。 テキストエディターでブラウンコーパスからファイルを開いた場合に表示される可能性のある例を次に示します:

Part of Speech Tagset
Tagged corpora use many different conventions for tagging words.
Output

Nouns
Nouns generally refer to people, places, things, or concepts, for example.: woman, Scotland, book, intelligence. The simplified noun tags are N for common nouns like a book, and NP for proper nouns like Scotland.

Verbs
Looking for verbs in the news text and sorting by frequency

Leave a Reply