Tokenizer 関数
PHP Manual

token_get_all

(PHP 4 >= 4.2.0, PHP 5, PHP 7)

token_get_all指定したソースを PHP トークンに分割する

説明

array token_get_all ( string $source [, int $flags = 0 ] )

token_get_all() は指定した文字列 source をパースし、Zend engine の 字句解析スキャナにより PHP 言語のトークンに分割します。

パーサトークンの一覧を得るには、パーサトークンの一覧 を参照するか、 あるいは token_name() でトークン値を文字列表現に 変換します。

パラメータ

source

パースする PHP ソース。

flags

以下のフラグが使えます。

  • TOKEN_PARSE - 特定のコンテキストで予約語を使った場合に、それを認識する。

返り値

トークン ID の配列を返します。配列の各要素には、一文字単位の文字列 (例: ;.>! など...)、 またはトークンのインデックスを 0 番目の要素、トークンの文字列表現を 1 番目の要素、 行番号を 2 番目の要素とする配列が含まれます。

変更履歴

バージョン 説明
7.0.0 オプションの flags パラメータと TOKEN_PARSE フラグが導入されました。
5.2.2 二番目の要素として行番号を返すようになりました。

例1 token_get_all() の例

<?php
$tokens 
token_get_all('<?php echo; ?>');

foreach (
$tokens as $token) {
    if (
is_array($token)) {
        echo 
"Line {$token[2]}: "token_name($token[0]), " ('{$token[1]}')"PHP_EOL;
    }
}
?>

上の例の出力は、 たとえば以下のようになります。

Line 1: T_OPEN_TAG ('<?php ')
Line 1: T_ECHO ('echo')
Line 1: T_WHITESPACE (' ')
Line 1: T_CLOSE_TAG ('?>')

例2 token_get_all() の間違った使いかた

<?php
$tokens 
token_get_all('/* comment */');

foreach (
$tokens as $token) {
    if (
is_array($token)) {
        echo 
"Line {$token[2]}: "token_name($token[0]), " ('{$token[1]}')"PHP_EOL;
    }
}
?>

上の例の出力は、 たとえば以下のようになります。

Line 1: T_INLINE_HTML ('/* comment */')
先ほどの例では、文字列が T_COMMENT ではなく T_INLINE_HTML とパースされていたことに注意しましょう。 これは、指定した "code" の中に開始タグが含まれていないからです。 通常のファイルで、コメントを PHP タグの外部に書いた場合にも同じようになります。

例3 予約語を使ったクラスでの token_get_all() の例

<?php

$source 
= <<<'code'
<?php

class A
{
    const PUBLIC = 1;
}
code;

$tokens token_get_all($sourceTOKEN_PARSE);

foreach (
$tokens as $token) {
    if (
is_array($token)) {
        echo 
token_name($token[0]) , PHP_EOL;
    }
}
?>

上の例の出力は、 たとえば以下のようになります。

T_OPEN_TAG
T_WHITESPACE
T_CLASS
T_WHITESPACE
T_STRING
T_CONST
T_WHITESPACE
T_STRING
T_LNUMBER
TOKEN_PARSE フラグを指定しなければ、最後から二番目のトークン (T_STRING) が T_PUBLIC と解釈されてしまいます。

参考


Tokenizer 関数
PHP Manual