tokuhirom's blog

ブログを MySQL ベースにした

昔はブログを MySQL ベースで運用していたのだが、、MySQL ベースでやってると運用がちょっとめんどくさくて、お金をかけずに自前でブログを運用するとなると、ファイルベースで管理したほうがなにかと楽だったというような歴史的経緯があり、ファイルベースでやっていたのだが、Digital Ocean の managed mysql が思ったより使い勝手が良いので、これを使うことにした。$15/Month ぐらい。 MySQL ベースのほうが、プログラミング言語を変える、とかもやりやすい。気がする(今のブログシステムは、なぜか最近全然使ってない Ruby で書かれていて、メンテがちょっとしんどい)。
Created: 2021-09-21 01:39:28 +0000
Updated:

VPS を Ubuntu に変えたよ

何かの作業するとき用に VPS をなんとなく契約しているのだけど、すごい昔の centos で色々めんどくさくなったのでふっとばして ubuntu 20.04 に変更したよ。

Created: 2021-09-19 01:06:09 +0000
Updated: 2021-09-21 00:17:32 +0000

gradle の test 失敗情報を stdout に出させる。

    test {
        useJUnitPlatform()
        testLogging {
            // Make sure output from standard out or error is shown in Gradle output.
            showStandardStreams true
            showExceptions true
            showCauses true
            showStackTraces true
            exceptionFormat TestExceptionFormat.FULL
        }
    }

とかする。github actions とかの場合は設定しておくと便利。

Created: 2021-09-01 15:07:13 +0000
Updated: 2021-09-01 15:07:13 +0000

PowerShell の New-ScheduledTaskTrigger で、DaysOfWeek に複数要素指定する

New-ScheduledTaskTrigger -Weekly -At $At -DaysOfWeek @("Monday", "Tuesday", "Wednesday", "Thursday", "Friday")

PowerShell 力が低くて難しかったけど、これで動いてそう。

Created: 2021-05-16 00:19:00 +0000
Updated: 2021-05-16 00:19:00 +0000

Windows 10 で caps2ctrl が動かないときは powertoys 使う

caps2ctrl で remap していたが、なんか動かなくてぐぐってみると、microsoft が出している powertoys なら動くとのこと。 実際 powertoys を使ったらちゃんと動いた。 https://github.com/microsoft/PowerToys

Created: 2021-04-08 08:01:30 +0000
Updated: 2021-04-08 08:01:30 +0000

lettuce で redis cluster を使ってる場合に、プロセスがうまく落ちないってとき

lettuce-timer のスレッドとかが残ってうまくプロセスがシャットダウンでき無いとき。

Lettuce の場合 StatefulRedisClusterConnection などのコネクションオブジェクトと RedisClusterClient の他に ClientResources も shutdown しないと、うまくプロセスが終わらないので要注意。

見逃しがち。

https://github.com/tokuhirom/lettuce-exit-normally/

Created: 2021-03-08 16:51:02 +0000
Updated: 2021-03-08 16:51:02 +0000

Wikipedia から SKK の辞書を生成するスクリプトをかいた。

https://github.com/tokuhirom/jawiki-kana-kanji-dict

SKK-JISYO.L が最近、メンテナンスされてなくて れいわ /令和/ が入ってなかったりして困ってしまう。

そこで、neologd から辞書を生成してみた。 https://github.com/tokuhirom/skk-jisyo-neologd/ しかし、neologd は、形態素解析用の辞書としてはいいと思うのですが、かな漢字変換用として無理矢理使おうとすると誤変換になってしまうケースが多かった。

なので、直接 wikipedia からデータを抽出することにしてみた python で適当に抽出するスクリプトを書いて、github actions で設定した。これで、何もしなくても自動的に辞書がアップデートされていくはず。

工夫したこととかのメモ

  • neologd からの抽出のときはデータ量がすくなかったので雑に Perl で書いていた
  • Wikipedia を直接読み込む場合には、XML がめちゃくちゃでかいのでナイーブに書いたら時間がえらくかかるようになった
    • マルチステップで処理するようにした。
    • python の multiprocessing で、処理を並列でするようにしてめちゃくちゃ速くなった
  • janome/romkan など利用して、怪しいエントリを除外するようにしてる
    • janome、思ったより速くて便利だった。
  • github actions でまわりきる時間で終わる必要があるから、速度のチューニングはわりとしっかりめにやった
  • 全部で 10分以内に処理が終る。
Created: 2020-08-30 09:47:59 +0000
Updated: 2020-08-30 09:47:59 +0000

pytest でテスト名称がマルチバイト文字のときにエスケープされて見辛いとき

pytest.ini に以下のように記述すればよい。

[pytest]

disable_test_id_escaping_and_forfeit_all_rights_to_community_support = true

https://github.com/pytest-dev/pytest/pull/4995

Created: 2020-08-29 21:18:52 +0000
Updated: 2020-08-29 21:18:52 +0000

Mac で synergy がうごかないとき

Linux を server, Mac を client として synergy を使おうとした。

[2019-03-13T22:16:56] DEBUG: can't get the active group, use the first group instead

とかなんとか言われて、うまく動かない場合。

MacOS 側に "U.S." キーボードレイアウトがないと日本語入力できないらしい!これはわからん!!

Settings の "Keyboard" -> "Input Sources" から U.S. を追加すればOK。Google IME だけ、とかにしてると使えないのだった。

hirose31 san におしえてもらって解決しました!!!

ref. https://members.symless.com/forums/topic/6176-keyboard-does-not-work-clientmacos-mojave-serverubuntu-1804/

Created: 2020-08-21 15:39:00 +0000
Updated: 2020-08-21 15:39:00 +0000

mecab-ipadic-neologd-git の AUR package をなおした

なんかよくわからんが fakeroot の下だと file コマンドがうごかないのでなぞだった。

https://aur.archlinux.org/packages/mecab-ipadic-neologd-git/

なんかそれっぽく直した。

Created: 2020-08-20 18:36:27 +0000
Updated: 2020-08-20 18:36:27 +0000

SparkSQL のクエリをユニットテストしたい

品質向上のために Spark クエリのユニットテストを実施したいという場合、JVM 言語で開発している場合には、Spark/hive をライブラリとしてロードできるから、容易に実装することができる。

dependencies {
    implementation 'org.apache.spark:spark-core_2.12:3.0.0'
    implementation 'org.apache.spark:spark-sql_2.12:3.0.0'
}

のように、関連するモジュールを依存に追加する。

以下のような、テストに利用するデータを json 形式などで用意する(spark は CSV, TSV などの形式も利用可能だから、好きなものを使えばよい)

{"name": "Nick",    "age":35,   "extra_fields": "{\"interests\":[\"car\", \"golf\"]}"}
{"name": "John",    "age":23}
{"name":"Cathy",    "age":44,   "extra_fields":"{\"interests\":[\"cooking\"]}"}

あとは、実際に spark session を作成し、local モードで spark を起動させれば良い。

import org.apache.spark.sql.Dataset
import org.apache.spark.sql.Row
import org.apache.spark.sql.SparkSession

// test without
class SimpleTest {
    fun run() {
        val spark: SparkSession = SparkSession
            .builder()
            .appName("Java Spark SQL basic example") // your application name
            .config("spark.master", "local")  // run on local machine, single thread.
            .config("spark.ui.enabled", false)
            .getOrCreate()

        val resourcePath = javaClass.classLoader.getResource("test-data/people.json")!!.toString()
        println("++++ read csv from: $resourcePath")

        val df = spark.read()
            .json(resourcePath)
        df.show()
        df.printSchema()

        println("++++ create table")
        df.createTempView("people")

        println("++++ select")
        val sqlDF: Dataset<Row> = spark.sql("SELECT * FROM people")
        sqlDF.show(false)

        println("++++ select 2nd")
        val sqlDF2: Dataset<Row> = spark.sql("SELECT name, get_json_object(extra_fields, '$.interests') interests FROM people")
        sqlDF2.show()

        println("++++ select 3rd")
        val sqlDF3: Dataset<Row> = spark.sql("SELECT avg(age) avg_age FROM people")
        sqlDF3.show()
    }
}

fun main() {
    SimpleTest().run()
}

hive を使う場合

実際に動かすクエリが select * from your_db_name.your_table のようにDB 名を指定していて、そのクエリ自体を変えずにテストしたいという場合には、hive サポートを有効にする必要がある。

hive を使う場合、spark-hive を依存に追加する。

dependencies {
    implementation 'org.apache.spark:spark-core_2.12:3.0.0'
    implementation 'org.apache.spark:spark-sql_2.12:3.0.0'
    implementation 'org.apache.spark:spark-hive_2.12:3.0.0'
}

あとは以下のように DB を作って入れるだけ。

import org.apache.spark.sql.Dataset
import org.apache.spark.sql.Row
import org.apache.spark.sql.SaveMode
import org.apache.spark.sql.SparkSession

class TestClass {
    fun run() {
        val warehouseLocation = createTempDir()
        println("++++ warehouseLocation=$warehouseLocation")
        val spark: SparkSession = SparkSession
            .builder()
            .appName("Java Spark SQL basic example") // your application name
            .config("spark.master", "local")  // run on local machine, single thread.
            .config("spark.sql.warehouse.dir", warehouseLocation.toString())
            .config("spark.ui.enabled", false)
            .enableHiveSupport()
            .getOrCreate()

        val resourcePath = javaClass.classLoader.getResource("test-data/people.json")!!.toString()
        println("++++ read csv from: $resourcePath")

        val df = spark.read()
            .json(resourcePath)
        df.show()
        df.printSchema()

        println("++++ create table")
        spark.sql("create database if not exists foo")
        df.write().mode(SaveMode.Overwrite).saveAsTable("foo.people")
        spark.sql("show tables").show()
        spark.sql("show create table foo.people").show(false)

        // If the type of data is the important thing, you need to write your schema by yourself.
        //        spark.sql("""drop table if exists `foo`.`people`""")
//        spark.sql("""
//        CREATE TABLE `foo`.`people` (
//            `name` STRING,
//            `age` long,
//            `extra_fields` STRING)
//        USING parquet""".trimIndent())
//        df.write().insertInto("foo.people")


        println("++++ select")
        val sqlDF: Dataset<Row> = spark.sql("SELECT * FROM foo.people")
        sqlDF.show(false)

        println("++++ select 2nd")
        val sqlDF2: Dataset<Row> = spark.sql("SELECT name, get_json_object(extra_fields, '$.interests') interests FROM foo.people")
        sqlDF2.show()

        println("++++ select 3rd")
        val sqlDF3: Dataset<Row> = spark.sql("SELECT avg(age) avg_age FROM foo.people")
        sqlDF3.show()
    }
}

fun main() {
    TestClass().run()
}

クエリを変更しなくていいというメリットがある一方で、hive にアクセスするので依存も増えるし、実行もめちゃくちゃ遅くなります。

df.write().mode(SaveMode.Overwrite).saveAsTable("foo.people")

のようにすると、df 側の型をみていい感じにテーブル定義してくれて便利だが、明示的に create table したいときは以下のようにしたほうがいいかも。

        spark.sql("""drop table if exists `foo`.`people`""")
        spark.sql("""
        CREATE TABLE `foo`.`people` (
            `name` STRING,
            `age` long,
            `extra_fields` STRING)
        USING parquet""".trimIndent())
        df.write().insertInto("foo.people")

両者の比較

hive を利用しない場合、上記コードは 4.427 sec 程度で終わりますが、hive を利用する場合は 19.676 sec 程度かかるようになります。 プロダクションコードのテストをする場合はこの差はそこそこでかいかも。

sample code

https://github.com/tokuhirom/sparksql-unittest

Created: 2020-08-07 08:26:56 +0000
Updated: 2020-08-07 08:26:56 +0000

curl で silence したいけどエラーはみたい。

       -s, --silent
              Silent or quiet mode. Don't show progress meter or error messages.  Makes Curl mute.

で silence できるが、これを入れると、error message も抑制されてしまう。

       -S, --show-error
              When used with -s it makes curl show an error message if it fails.

-S を追加で入れると、エラーは stderr に出るようになるのでちょうどいい感じになる。

Created: 2020-08-05 10:20:01 +0000
Updated: 2020-08-05 10:20:01 +0000

SystemRules ではなく SystemLambda を使う

https://github.com/stefanbirkner/system-rules

stdout/stderr の出力をキャプチャするのに systemrules が便利だが、junit5 対応はしていない。 junit5 に対応するためには system-labmda を使う。

https://github.com/stefanbirkner/system-lambda

インターフェースも junit に密結合していなくて、きれい。

Created: 2020-07-21 15:10:25 +0000
Updated: 2020-07-21 15:10:25 +0000

適当に JDBC でデータとってきてダンプするスニペット

生JDBCで適当にデータ出してデバッグしたいって時につかうやつです。

    protected void selectAndPrint(Connection connection, String query) {
        log.info("======> dumpTable: {} <====", query);
        try (PreparedStatement preparedStatement = connection.prepareStatement(query)) {
            try (ResultSet rs = preparedStatement.executeQuery()) {
                ResultSetMetaData metaData = rs.getMetaData();
                log.info("| {} |", IntStream.range(0, metaData.getColumnCount())
                                            .mapToObj(i -> {
                                                try {
                                                    return metaData.getColumnName(i + 1);
                                                } catch (SQLException e) {
                                                    throw new RuntimeException(e);
                                                }
                                            }).collect(Collectors.joining(" | ")));
                while (rs.next()) {
                    log.info("| {} |", IntStream.range(0, metaData.getColumnCount())
                                                .mapToObj(i -> {
                                                    try {
                                                        return rs.getString(i + 1);
                                                    } catch (SQLException e) {
                                                        throw new RuntimeException(e);
                                                    }
                                                }).collect(Collectors.joining(" | ")));
                }
            }
        } catch (SQLException e) {
            throw new RuntimeException(e);
        }
    }
Created: 2020-06-26 18:49:46 +0000
Updated: 2020-06-26 18:49:46 +0000

Swift で Foundation の data をバイト列で初期化したい

Data([0xDE, 0xAD, 0xBE, 0xEF]) こんな感じ。Data とか、一般的な名前すぎてググってもなんか見つけにくい。

Created: 2020-06-18 10:39:21 +0000
Updated: 2020-06-18 10:39:21 +0000

thrift compiler のバイナリを static build したい

http://archive.apache.org/dist/thrift/ からダウンロードする。

https://stackoverflow.com/questions/20068947/how-to-static-link-linux-software-that-uses-configure

linux の場合

sudo yum install glibc-static -y
./configure --enable-static --without-ruby --without-nodejs --without-php --without-python --without-c_glib --without-go --without-nodejs --without-lua CFLAGS="-static"
make -j9 LDFLAGS="-all-static"

osx の場合

osx では static build ができないので諦める。

brew install bison
export PATH="/usr/local/opt/bison/bin:$PATH"
export LDFLAGS="-L/usr/local/opt/bison/lib"
./configure --without-ruby --without-nodejs --without-php --without-python --without-c_glib --without-go --without-nodejs --without-lua
make -j 9
Created: 2020-06-17 18:58:44 +0000
Updated: 2020-06-17 18:58:44 +0000

[C#] C# で byte 列を16進数に変換したい

https://stackoverflow.com/questions/623104/byte-to-hex-string

の通りにやればいい。

byte[] data = { 1, 2, 4, 8, 16, 32 };
string hex = BitConverter.ToString(data);

// Result: 01-02-04-08-10-20

標準ライブラリでこういう表現できるのは便利だなーという感想。

Created: 2020-06-12 23:41:06 +0000
Updated: 2020-06-12 23:41:06 +0000

Gradle の dependency locking について

昔の gradle には dependency locking 機能がなかった。ビルドするタイミングによって、別の依存モジュールが利用されたりしていた。。 最近、gradle に dependency locking 機能がついたので試してみた。 carton.lock とか package-lock.json とか、そういうのと同じようなことができるようになる。 同じレポジトリからビルドしたら同じ jar が生成されるようになる。便利。

dependency locking を利用すると gradle.lockfile というファイルが生成される。

デフォルトだとフェーズ単位でファイルが生成されるから enableFeaturePreview('ONE_LOCKFILE_PER_PROJECT') を settings.gradle に書いて1ファイルにまとめるようにしたほうが良い。gradle 7.0 ではこの方式がデフォルトになる予定なので、最初からこの feature flag は enabled にしたほうが良いです。管理上も、そのほうが便利。

  • ./gradlew dependencies --write-locks ってするとロックファイルが書かれる
  • ./gradlew classes --update-locks org.apache.commons:commons-lang3,org.slf4j:slf4j-api とかで特定のモジュールだけアップデートできる

たぶんもう普通に使えるけど、まだ開発途中って感じはする。./gradlew dependencies してもサブプロジェクトのぶんを一括で作れない、とか。。

↓実際に line-bot-sdk-java を利用して試しに生成してみたやつがこれ。 https://github.com/tokuhirom/line-bot-sdk-java/commit/08a53ed86eedcf1072e7c12e77d7e1777f54c933

Created: 2020-05-13 10:00:39 +0000
Updated: 2020-05-13 10:00:39 +0000

PowerShell に git branch 情報を表示する

https://github.com/dahlbyk/posh-git

を利用すればいい。https://www.powershellgallery.com/packages/posh-git/1.0.0-beta4 PowerShell gallery からインストールすればいいです。

profile.ps1 に以下のように設定した。

Import-Module posh-git

function prompt {
    $prompt = & $GitPromptScriptBlock
    if ($prompt) { "$prompt " } else { " " }
}

$global:GitPromptSettings.DefaultPromptAbbreviateHomeDirectory = $true
$global:GitPromptSettings.EnableFileStatus = $false
Created: 2020-03-20 23:20:33 +0000
Updated: 2020-03-20 23:20:33 +0000

jacoco で lombok で生成されたコードを無視したい

Created: 2020-03-07 09:06:53 +0000
Updated: 2020-03-07 09:06:53 +0000
Next page