【问题标题】:Nested Dictionaries Golang Trouble嵌套字典 Golang 麻烦
【发布时间】:2015-12-28 20:46:05
【问题描述】:

转码:

package main

import (
    "bufio"
    _ "bytes"
    "fmt"
    _ "io"
    "log"
    "os"
    "os/user"
    "path/filepath"
    _ "reflect"
    "regexp"
    "runtime"
    "strconv"
    "strings"
    "sync"
    "time"

    "github.com/aws/aws-sdk-go/aws"
    "github.com/aws/aws-sdk-go/aws/session"
    "github.com/aws/aws-sdk-go/service/s3"
    "github.com/aws/aws-sdk-go/service/s3/s3manager"
)

var (
    LocalDirectory   = "s3logs" // Into this directory
    Lock             sync.Mutex
    totalImpressions int
)

var data = make(map[string]map[string]int)

func main() {
    start := time.Now()
    // by adding this line i'm telling the program to run the threads on 4 different cores at the same time, Parallelism!!
    //REMEMBER TO ADD BLOCKS TO STOP RACE CONDITIONS
    runtime.GOMAXPROCS(4)
    var wg sync.WaitGroup

    var year, month, day = time.Now().Date()
    str_year := strconv.Itoa(year)
    str_month := strconv.Itoa(int(month))
    str_day := strconv.Itoa(day)

    if int(month) < 10 {
        str_month = "0" + strconv.Itoa(int(month))
    }
    if day < 10 {
        str_day = "0" + strconv.Itoa(day)
    }

    regBuckets := map[string]string{
        "us-west-1": "pubgears-ca",
        "test":      "test",
    }

    for region, bucket := range regBuckets {
        prefix := fmt.Sprintf("tagserver/logs/AWSLogs/978380792767/elasticloadbalancing/%s/%s/%s/%s/", region, str_year, str_month, str_day)
        wg.Add(1)
        go getLogs(region, bucket, LocalDirectory+bucket, &prefix, &wg)
    }
    wg.Wait()

    //salon/t1/728x90/index
    //totalImpressions := 0
    // var provider = make(map[string]int)
    // for key, value := range data {
    //   key = strings.TrimSpace(key)
    //   pro := strings.Split(key, "_")[3]
    //
    //   if strings.Contains(pro, "pp") == true || (pro == "pulsepoint") || (pro == "cweb") {
    //     provider["pulsepoint"] += value
    //   } else if (pro == "openx") || (pro == "openx3") {
    //     provider["openx"] += value
    //   } else if key == " " {
    //     continue
    //   } else {
    //     provider[pro] += value
    //   }
    //   totalImpressions += value
    // }

    for tag, value := range data {
        for hour, imp := range value {
            fmt.Printf("tag: %s  \n hour: %s impression %s\n", tag, hour, imp)
        }
    }

    //sl = sl[:len(sl)-1]

    elapsed := time.Since(start)
    fmt.Printf("\nTime took %s\n", elapsed)

}

func getLogs(region string, bucket string, directory string, prefix *string, wg *sync.WaitGroup) {
    sess := session.New()
    client := s3.New(sess, &aws.Config{Region: aws.String(region)})

    params := &s3.ListObjectsInput{Bucket: &bucket, Prefix: prefix}
    manager := s3manager.NewDownloaderWithClient(client, func(d *s3manager.Downloader) {
        d.PartSize = 5 * 1024 * 1024 // 6MB per part
        d.Concurrency = 4
    })
    d := downloader{bucket: bucket, dir: directory, Downloader: manager}
    client.ListObjectsPages(params, d.eachPage)
    wg.Done()
}

// downloader object and methods
type downloader struct {
    *s3manager.Downloader
    bucket, dir string
}

func (d *downloader) eachPage(page *s3.ListObjectsOutput, more bool) bool {
    for _, obj := range page.Contents {
        // fmt.Println(obj)
        //     return true
        d.downloadToFile(*obj.Key)
    }
    return true
}

func (d *downloader) downloadToFile(key string) {
    // Create the directories in the path
    // desktop path
    user, errs := user.Current()
    if errs != nil {
        panic(errs)
    }
    homedir := user.HomeDir
    desktop := homedir + "/Desktop/" + d.dir
    file := filepath.Join(desktop, key)
    if err := os.MkdirAll(filepath.Dir(file), 0775); err != nil {
        panic(err)
    }

    // Setup the local file
    fd, err := os.Create(file)
    if err != nil {
        panic(err)
    }
    defer fd.Close()

    // Download the file using the AWS SDK
    //fmt.Printf("Downloading s3://%s/%s to %s...\n", d.bucket, key, file)
    params := &s3.GetObjectInput{Bucket: &d.bucket, Key: &key}
    d.Download(fd, params)
    _, e := d.Download(fd, params)
    if e != nil {
        panic(e)
    }

    f, err := os.Open(file)
    if err != nil {
        log.Fatal(err)
    }
    defer f.Close()

    tag := regexp.MustCompile("/([a-zA-Z0-9_]+/{1}[a-zA-Z0-9_]+/{1}[a-zA-Z0-9_]+/{1}[a-zA-Z0-9_]+)")
    date := regexp.MustCompile("T([^:]+)")
    scanner := bufio.NewScanner(f)

    // HAVING TROUBLE HERE
    for scanner.Scan() {
        //dateCollection := make(map[string]int)
        m := tag.FindString(scanner.Text())
        if m != "" {
            // stop races
            Lock.Lock()
            arr := strings.Split(m, "/")
            taghash := strings.Join(arr, "_")
            taghash = strings.TrimLeft(taghash, "_")
            //data[taghash]++
            m = date.FindString(scanner.Text())
            if m != "" {
                hour := m
                data[taghash] = make(map[string]int)
                data[taghash][hour]++
            }
            Lock.Unlock()
        }
    }
    fmt.Println(file)
    os.Remove(file)
    if err := scanner.Err(); err != nil {
        log.Fatal(err)
    }
}

我在下面第 167 行开始时遇到问题的区域:

for scanner.Scan() {
        //dateCollection := make(map[string]int)
        m := tag.FindString(scanner.Text())
        if m != "" {
            // stop races
            Lock.Lock()
            arr := strings.Split(m, "/")
            taghash := strings.Join(arr, "_")
            taghash = strings.TrimLeft(taghash, "_")
            //data[taghash]++
            m = date.FindString(scanner.Text())
            if m != "" {
                hour := m
                data[taghash] = make(map[string]int)
                data[taghash][hour]++
            }
            Lock.Unlock()
        }
    }
    fmt.Println(file)
    os.Remove(file)
    if err := scanner.Err(); err != nil {
        log.Fatal(err)
    }

打印主函数中的值时得到的输出

fstvt1_ros_300x600_pp8_1 T07 1

我期待一个看起来像这样的输出:

fstvt1_ros_300x600_pp8_1
T00 213434
T01 23432
T02 3324
T03 324
T04 324
T05 0 ...
(this isn't real data)

我正在尝试做的事情: 我有一个数据映射var data = make(map[string]map[string]int),其键等于 taghash,例如fstvt1_ros_300x600_pp8_1。该值是数据的映射。该映射的键值应为字符串和整数。我想要多张地图。每个键一个... T01,T02 .. 当前输出的是我正在迭代的最后一个项目中的最后一个项目,而不是每个标签哈希的键和值的集合。我是如何做到的,它不会覆盖数据,而是添加新的键值 T01、T02.. 并且如果 taghash 和小时是增加该特定对象的一些。

我目前正在使用的代码行:

T01,T02..

data[taghash][hour]++

如果 taghash 和 hour 存在,那么它应该增加。如果标签哈希和小时不存在,则创建标签哈希并添加新键和增量。

【问题讨论】:

  • 如果我有更多的时间,我可能会找到答案,但有一些事情可能会有所帮助......首先,Go 中没有字典类型,它是一张地图,其次是你拥有的数据在纯文本中与地图类型不一致。你说你有一个字典,一个键和一个字典集合?不,你没有。 foobar_openx 有一个值对象,该对象包含两个未命名的对象。你没有钥匙,所以你当然没有地图。与您发布的内容最接近的结构是数组或切片。
  • 对不起,你是对的,我走了 Go 使用地图,当我玩地图时我的思维词典(键:值)。在 python 中,我的值将是字典的集合,其中每个字典都有一个键,即小时和印象值。所以我现在就修复结构,我看到了我的错误。即便如此,这是我的打字错误,go 代码没有反映这一点。
  • 最里面的对象应该只是type Views struct { hours, impressions int }foobar_openx 应该只是该类型的切片或数组; []Views。您是否正在尝试解析您发布的数据?你不只是使用json有什么原因吗?为什么是这种格式?它与 json 类似,但我不认为这是有效的 json(字典和数组都没有,因此您缺少值的键)。
  • Go 有一个 mongo 包。 JSON 只是一种表示数据的格式,它与 Python 中的字典无关。 Python 类型几乎可以接受任何东西,这将有助于您特别了解 json 的结构,因为再一次,即使在 json 中它也不是字典。它们有数组、字典和对象,而你在 json 和 Go 中拥有的永远不是字典。
  • 无意冒犯,但您只需要了解数据结构,因为您在 Python 中再次提到的东西,它的约定非常快速和松散,显然您实际上并不了解数据结构您的数据在 Go 中将是必需的,因为它的约定是严格的,json 也是如此。您在上面描绘的结构是数据的文本表示形式,与该数据在程序中的表示方式完全不同。您在 Python 中使用的集合是超级抽象的,它比您在上面发布的内容要多得多,这就是它为您打印的内容。

标签: dictionary data-structures struct go


【解决方案1】:

错误来自

data[taghash] = make(map[string]int)

这会将data[taghash] 设置为每次通过时新分配的映射。这绝对不是你想要做的。而是:

if _, ok := data[taghash]; !ok {
    // data[taghash] does not exist -- create it!
    data[taghash] := make(map[string]int)
}
data[taghash][hour]++

这相当于:

# Python
data.setdefault(taghash, {}).setdefault(hour, 0) += 1

或者

if taghash not in data:
    data[taghash] = {}
if hour not in data[taghash]:
    data[taghash][hour] = 1
else:
    data[taghash][hour] += 1

【讨论】:

  • 我改变了代码的结构。我也不知道上限,所以代码必须去处理未知数量的数据(自行增长。)
  • @msanti 确实如此,cap 只是切片的效率问题。增加切片是有代价的(因为它必须分配一个新的后备数组)
  • 另外,每个小时都应该是它自己的钥匙。以便可以像 data[taghash][hour] -> 印象#一样访问它,我上面发布的代码提供了我只需要弄清楚为什么它没有正确添加值的结构。
  • 请注意,我完全同意@evanmcdonnal 在问题 cmets 中表示您的数据结构可以使用工作。这应该非常快速地查找hash+hour -&gt; views,但前提是您已经有了哈希和小时。实际上,与 Python 相比,从该地图中提取数据将非常困难。
  • @msanti 那里发生了一些事情。有if &lt;initialization statement&gt;; &lt;condition&gt; {...} 语法和value, ok := mapping[key] 语法。前者允许您编写一个语句来初始化if 块(与for i:=0; i &lt; 10; i++ 块中的第一条语句不同。后者允许您从映射中提取值并通过检查ok 来确保它存在。我们实际上并不关心这里的值,所以我们使用空变量将其置空。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-05-13
  • 2017-05-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多