fc2ブログ

2023.04 «  - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 - - - » 2023.06
TOP > 【Rubyでアクセス解析 その5】キーワードを抽出する

 ← 【Rubyでアクセス解析 その6】総仕上げ | TOP | 【Rubyでアクセス解析 その4】apacheログファイルを読み込む

【Rubyでアクセス解析 その5】キーワードを抽出する 

2010年11月14日 ()
sjis, euc, utf-8 などの文字コードが混じっている URL エンコード文字列を、どーにか日本語にデコードできないか、が今回課題です。

以下でなんとか出来ました!

require 'uri'
require 'kconv'
$KCODE = 'UTF-8'
URI.decode(ここにURLエンコード文字列を入れる).toutf8



というのを発見するのにだいぶ時間が掛かって、ビールの酔いが覚めました。もう一杯飲もう。

ちなみに、JavaScriptのescape関数でエンコードされた日本語は、上記ではデコードできません。

別途、正規表現で1文字ずつ読み取って、unpackみたいなことをしましょう!ソースコードは、ここには載せませんが、知りたい人は是非コメント欄にリクエストを書いて下さい ><

それから、今回は、モジュールファイルを1ファイルから細切れに分けました。

簡単に言うと、以下のようなことをしました。

### ファイル my_module.rb
module MyModule
  def method1
  end

  def method2
  end

  def method3
  end
end



を分散させて

### ファイル my_module.rb
require 'my_module/method1'
require 'my_module/method2'
require 'my_module/method3'

### ファイル my_module/method1.rb
module MyModule
  def method1
  end
end

### ファイル my_module/method2.rb
module MyModule
  def method2
  end
end

### ファイル my_module/method3.rb
module MyModule
  def method3
  end
end



さーて、あと1~2回は続く予定です。

今の段階のソースコードを参照したい方は以下のコマンドでどうぞ

git clone http://github.com/rorkaido/farfalle.git
cd farfalle/
git checkout v0.3




【広告】

[2010.11.14(Sun) 00:40] Rubyでアクセス解析Trackback(0) | Comments(0)
↑TOPへ

 ← 【Rubyでアクセス解析 その6】総仕上げ | TOP | 【Rubyでアクセス解析 その4】apacheログファイルを読み込む

COMMENT

COMMENT POST















管理者にだけ表示

 ← 【Rubyでアクセス解析 その6】総仕上げ | TOP | 【Rubyでアクセス解析 その4】apacheログファイルを読み込む